概述
Browser-use 是一个基于 Python 的库,旨在将 AI Agent 与真实浏览器深度结合。配合 LLM(如 GPT、Claude 等),它能让智能体自动访问网页、操作元素、收集信息甚至执行脚本,极大地扩展了 AI 在 Web 场景下的落地能力。
核心依赖包括 LangChain(Agent 框架)、Playwright(浏览器自动化)、dotenv(环境变量管理)以及异步 I/O 架构。目前最低支持 Python 3.11 版本。
技术流程
整体逻辑遵循:语言模型决策 -> 控制层解析 -> 浏览器执行 -> 数据回传 -> 模型后处理。这种闭环让 Agent 具备了'看'和'做'的能力。
安装与环境配置
1. Python 环境
推荐使用 Python 3.11 或更高版本,并在独立虚拟环境中运行。
若使用 pyenv 管理版本,可参考以下命令:
brew install pyenv
pyenv install 3.11.9
初始化配置需添加到 shell 配置文件(如 .zshrc):
export PYENV_ROOT="$HOME/.pyenv"
export PATH="$PYENV_ROOT/bin:$PATH"
eval "$(pyenv init -)"
2. 安装 Browser-use
直接通过 pip 安装即可:
pip3 install browser-use
随后需要安装 Playwright 驱动,这会自动下载 Chromium 无头浏览器:
playwright install
3. 配置 API Key
在 .env 文件中填入对应的密钥,例如:
OPENAI_API_KEY=sk-xxxxxxx
ANTHROPIC_API_KEY=xxxxxx
若使用其他模型,请参照 LangChain 文档进行相应配置。
核心配置详解
1. Agent 参数
Agent 是交互的核心入口。除了必传的 task 和 llm,还有一些关键参数值得注意:
| 参数 | 说明 |
|---|---|
| use_vision | 是否启用视觉能力(截图分析)。DeepSeek 类模型建议设为 False 以节省成本。 |
| max_steps | 最大执行步数,防止死循环,默认 100。 |


