Browser-use：基于 Python 的 AI 浏览器自动化实战

概述

Browser-use 是一个旨在将 AI 智能体（Agents）与真实浏览器进行交互的 Python 库，能够轻松实现浏览器自动化。配合 LLM（如 GPT 系列）使用时，它可以让智能体发起网页访问、操作页面元素、收集信息或执行脚本，从而扩展 AI 应用的落地场景。

注意：目前 Browser-use 最低需要 Python 3.11 及以上版本才能正常使用其封装的 Playwright 功能。

技术栈

LangChain（AI Agent 框架）
Playwright（浏览器自动化）
dotenv（环境变量管理）
异步 I/O 架构

核心流程

架构图

语言模型负责决策与控制，驱动浏览器执行任务，随后数据回传至模型进行后处理。

安装与环境配置

Python 版本

确保使用 Python 3.11 或更高版本。推荐在独立虚拟环境（venv）或使用 uv 等工具中配置。

安装依赖

安装 browser-use
```
pip3 install browser-use
```
安装 Playwright 浏览器内核
```
playwright install
```
此命令会自动下载 Chromium 无头浏览器，用于后续的自动化操作。

参数名称	类型	默认值	说明
task	str	无	代理需要执行的任务描述（必传）。
llm	BaseChatModel	无	主语言模型，执行对话和工具调用（必传）。
controller	Controller 实例	默认 Controller	自定义函数/工具调用的注册表。
use_vision	bool	True	是否启用视觉能力（截图 + 分析）。若模型支持图像输入可显著提高理解力，但会增加 Token 成本。DeepSeek 需设置为 False。
save_conversation_path	str	无	指定路径保存对话历史，用于调试或审计。
system_prompt_class	type	默认 Prompt	自定义系统提示词逻辑。
max_steps	int	100	允许 Agent 执行的最大步骤数，防止死循环。
planner_llm	BaseChatModel	——	规划用语言模型，可用较小/便宜模型处理高层策略。
generate_gif	bool/str	False	是否录制浏览器过程生成 GIF。为字符串时指定存储路径。

参数名称	类型	默认值	说明
headless	bool	False	是否启用无头模式（不显示 UI）。
disable_security	bool	True	是否禁用浏览器安全功能（如跨域限制）。
chrome_instance_path	str	——	指定本地 Chrome 安装路径，保留登录状态和 Cookie。

参数名称	类型	默认值	说明
minimum_wait_page_load_time	float	0.5	捕获网页状态前的最小等待时间。
wait_for_network_idle_page_load_time	float	1.0	等待网络空闲时间，慢速网站建议提高到 3-5s。
highlight_elements	bool	True	是否高亮交互元素（调试用）。
viewport_expansion	int	500	页面内容扩展范围（像素），影响哪些元素被 LLM 看到。

Browser-use：基于 Python 的 AI 浏览器自动化实战

概述

技术栈

核心流程

安装与环境配置

Python 版本

推荐使用 pyenv 管理 Python

安装依赖

更多推荐文章

相关免费在线工具

基础配置

Agent 参数详解

Browser 配置

BrowserConfig

BrowserContextConfig

实战示例

1. 简单任务

2. 使用本地 Chrome 浏览器

3. 自定义 Prompt 与结构化输出

4. 多 Agent 并行执行

UI 测试方式

安装 Gradio

运行示例

常见问题 & 解决思路

总结

参考资料

更多推荐文章

相关免费在线工具

Browser-use：基于 Python 的 AI 浏览器自动化实战

概述

技术栈

核心流程

安装与环境配置

Python 版本

推荐使用 pyenv 管理 Python

安装依赖

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

基础配置

Agent 参数详解

Browser 配置

BrowserConfig

BrowserContextConfig

实战示例

1. 简单任务

2. 使用本地 Chrome 浏览器

3. 自定义 Prompt 与结构化输出

4. 多 Agent 并行执行

UI 测试方式

安装 Gradio

运行示例

常见问题 & 解决思路

总结

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具