Перейти к содержимому

LangChain и Browser-Use: Создание ИИ-агентов для работы с веб-браузером. Быстрый старт

Оглавление

Показать ещё

В этой статье я покажу, как быстро настроить и запустить ИИ-агента, который сможет искать информацию в Google и анализировать веб-страницы.

1. Что такое LangChain и Browser-Use?

LangChain — это фреймворк для работы с языковыми моделями (LLM), который позволяет создавать интеллектуальные агенты с инструментами для поиска информации, выполнения вычислений и взаимодействия с внешними сервисами.

Browser-Use — это Python-библиотека, позволяющая языковым моделям управлять веб-браузером: посещать сайты, кликать по ссылкам, заполнять формы и анализировать страницы.

Комбинируя эти две технологии, можно создать мощного интеллектуального агента для автоматизированного взаимодействия с интернетом.

2. Установка необходимых библиотек

Перед началом работы установите зависимости с помощью pip:

pip install -U langchain langchain-openai langchain-community browser-use python-dotenv serpapi google-search-results numexpr

3. Настройка API-ключей

Для работы с OpenAI и SerpAPI необходимо получить API-ключи. Добавьте их в файл .env:

SERPAPI_API_KEY: Для чего нужен и как получить?

SERPAPI — это сервис, который предоставляет API для парсинга результатов поисковых систем (Google, Bing, Yahoo и других). Ключ SERPAPI_API_KEY требуется для:
Где получить ключ?

Перейдите на сайт serpapi.com. Нажмите Sign Up и создайте аккаунт (доступна бесплатная пробная версия). После регистрации войдите в личный кабинет. На странице Dashboard ваш ключ будет указан в разделе API Key. Пример: abcd1234…5678xyz. Бесплатный план дает 100 запросов/месяц (достаточно для тестирования). Для коммерческих проектов выберите подходящий тариф (от $50/месяц).

OPENAI_API_KEY=ваш_openai_ключ
SERPAPI_API_KEY=ваш_serpapi_ключ

4. Код агента

Создайте файл browser_agent.py и добавьте следующий код:

👉 Гитхаб

5. Разбор кода

  1. Импортируем библиотеки: langchain_openai, browser_use, dotenv, asyncio и другие.
  2. Загружаем API-ключи из .env.
  3. Инициализируем языковую модель (ChatOpenAI).
  4. Определяем инструмент Google Search.
  5. Формулируем задачу: найти новости об OpenAI и затем основателей компании.
  6. Создаем агента с помощью initialize_agent.
  7. Запускаем агента асинхронно (arun(task)).
  8. Выводим результат или логируем ошибки.

6. Запуск агента

Запустите скрипт с помощью Python:

python browser_agent.py

Ожидаемый результат:

  1. Агент использует инструмент поиска для получения информации о последних новостях OpenAI.
  2. Посещает один из найденных веб-сайтов.
  3. Извлекает имена основателей OpenAI и выводит их в консоль.

7. Улучшение агента

Дополнительные возможности:

  • Интеграция с векторными базами данных: хранение и анализ информации.
  • Добавление памяти (Memory): сохранение истории запросов.
  • Расширение списка инструментов: работа с API других сервисов.
  • Обработка сложных цепочек действий (Chains).

Использование Browser-Use для взаимодействия с веб-страницами

Агент может не только искать информацию, но и управлять браузером. Например, можно добавить поддержку кликов и заполнения форм.

Пример:

-2

Этот код позволяет агенту открыть веб-страницу и извлечь текст.

Другие статьи:


Библиотека schedule для простого и удобного планирования регулярного выполнения задач

Python. Шпаргалки: Библиотека schedule⁠⁠

101 игра на python2 дня назад

Использование array.array. array.array — это специализированный тип данных в Python, предназначенный для хранения последовательностей однотипных чисел.

Использование array.array в Python: когда и зачем применять⁠⁠

101 игра на python23 февраля

Управление мышью в Python

Управление мышью в Python

101 игра на python27 января

Все статьи на канале

dzen.ru

101 игра на python | Дзен

Удачи!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *