Оглавление
Показать ещё
В этой статье я покажу, как быстро настроить и запустить ИИ-агента, который сможет искать информацию в Google и анализировать веб-страницы.
1. Что такое LangChain и Browser-Use?
LangChain — это фреймворк для работы с языковыми моделями (LLM), который позволяет создавать интеллектуальные агенты с инструментами для поиска информации, выполнения вычислений и взаимодействия с внешними сервисами.
Browser-Use — это Python-библиотека, позволяющая языковым моделям управлять веб-браузером: посещать сайты, кликать по ссылкам, заполнять формы и анализировать страницы.
Комбинируя эти две технологии, можно создать мощного интеллектуального агента для автоматизированного взаимодействия с интернетом.
2. Установка необходимых библиотек
Перед началом работы установите зависимости с помощью pip:
pip install -U langchain langchain-openai langchain-community browser-use python-dotenv serpapi google-search-results numexpr
3. Настройка API-ключей
Для работы с OpenAI и SerpAPI необходимо получить API-ключи. Добавьте их в файл .env:
SERPAPI_API_KEY: Для чего нужен и как получить?
SERPAPI — это сервис, который предоставляет API для парсинга результатов поисковых систем (Google, Bing, Yahoo и других). Ключ SERPAPI_API_KEY требуется для:
Где получить ключ?
Перейдите на сайт serpapi.com. Нажмите Sign Up и создайте аккаунт (доступна бесплатная пробная версия). После регистрации войдите в личный кабинет. На странице Dashboard ваш ключ будет указан в разделе API Key. Пример: abcd1234…5678xyz. Бесплатный план дает 100 запросов/месяц (достаточно для тестирования). Для коммерческих проектов выберите подходящий тариф (от $50/месяц).
OPENAI_API_KEY=ваш_openai_ключ
SERPAPI_API_KEY=ваш_serpapi_ключ
4. Код агента
Создайте файл browser_agent.py и добавьте следующий код:
👉 Гитхаб
5. Разбор кода
- Импортируем библиотеки: langchain_openai, browser_use, dotenv, asyncio и другие.
- Загружаем API-ключи из .env.
- Инициализируем языковую модель (ChatOpenAI).
- Определяем инструмент Google Search.
- Формулируем задачу: найти новости об OpenAI и затем основателей компании.
- Создаем агента с помощью initialize_agent.
- Запускаем агента асинхронно (arun(task)).
- Выводим результат или логируем ошибки.
6. Запуск агента
Запустите скрипт с помощью Python:
python browser_agent.py
Ожидаемый результат:
- Агент использует инструмент поиска для получения информации о последних новостях OpenAI.
- Посещает один из найденных веб-сайтов.
- Извлекает имена основателей OpenAI и выводит их в консоль.
7. Улучшение агента
Дополнительные возможности:
- Интеграция с векторными базами данных: хранение и анализ информации.
- Добавление памяти (Memory): сохранение истории запросов.
- Расширение списка инструментов: работа с API других сервисов.
- Обработка сложных цепочек действий (Chains).
Использование Browser-Use для взаимодействия с веб-страницами
Агент может не только искать информацию, но и управлять браузером. Например, можно добавить поддержку кликов и заполнения форм.
Пример:
Этот код позволяет агенту открыть веб-страницу и извлечь текст.
Другие статьи:
Библиотека schedule для простого и удобного планирования регулярного выполнения задач
Python. Шпаргалки: Библиотека schedule
Использование array.array. array.array — это специализированный тип данных в Python, предназначенный для хранения последовательностей однотипных чисел.
Использование array.array в Python: когда и зачем применять
Управление мышью в Python
dzen.ru
101 игра на python | Дзен
Удачи!