什么是 Browser Use?
Browser Use 是一个开源 Python 库,它允许 AI 大型语言模型(LLM)自动控制和操作网页浏览器。通过 Browser Use,你可以让 AI 像人类一样浏览网页、点击按钮、填写表单、提取数据,从而实现各种自动化任务。
Browser Use 的核心特性
- 多模型支持:支持 OpenAI GPT-4、Claude、Gemini 等主流 LLM
- 视觉感知:AI 可以看到网页截图并理解页面内容
- 智能交互:自动识别可交互元素(按钮、链接、输入框等)
- 任务规划:AI 会自动规划步骤完成复杂任务
- 并行处理:支持多个浏览器实例并行运行
快速开始
1. 安装 Browser Use
pip install browser-use playwright install chromium
2. 配置 API 密钥
创建 .env 文件并配置你的 LLM API 密钥:
OPENAI_API_KEY=your_api_key_here # 或者使用其他模型 ANTHROPIC_API_KEY=your_anthropic_key
3. 编写你的第一个 Browser Use 脚本
import asyncio
from langchain_openai import ChatOpenAI
from browser_use import Agent
async def main():
agent = Agent(
task="搜索最新的 Python 教程并总结前 3 个结果",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
asyncio.run(main())
核心组件详解
Agent(智能体)
Agent 是 Browser Use 的核心,它负责:
- 接收用户任务描述
- 与 LLM 通信,规划执行步骤
- 控制浏览器完成各项操作
- 收集并返回结果
Browser(浏览器)
Browser Use 基于 Playwright 构建,支持:
- Chromium、Firefox、WebKit 等多种浏览器
- 无头模式(Headless)和有界面模式
- 自定义浏览器配置
实际应用案例
案例 1:自动化数据收集
agent = Agent(
task=,
llm=ChatOpenAI(model=),
)
result = agent.run()

