browser-use + web-ui 大模型实现自动操作浏览器
介绍
官方地址:https://github.com/browser-use/web-ui
browser-use 主要作用是将 AI Agent 与浏览器连接起来,从而实现由 AI 驱动的浏览器自动化。
browser-use web-ui 功能点:
- 提供了全新的网页界面,简单好用,方便操作。
- 支持更多大语言模型,比如 Gemini、OpenAI、Azure、国产大模型 DeepSeek、通义千问等。
- 支持用自己的浏览器,不用再反复登录,还能录屏。
- 定制了更智能的 Agent,通过优化后的提示让浏览器使用更高效。
browser-use 与 web-ui 关系:
想象 Browser Use 是一个'网页翻译官':当 AI 需要操作网页时(比如自动订票),传统方法是让 AI'看截图'找按钮,但截图就像一张复杂照片,AI 需要花时间辨认。Browser Use 的解决方案是:把网页变成一份'元素清单',比如'第 1 个是登录按钮,第 8 个是搜索框……'。AI 只需根据清单编号,快速找到对应位置并点击,就像按菜单点菜一样简单。Web-UI 则是这个翻译官的'操作面板':普通用户不用写代码,直接在网页上选择任务(如'帮我搜机票'),选好 AI 模型(比如 ChatGPT),点击运行就能看到浏览器自动执行所有步骤,还能录屏回放操作过程。
环境搭建
python 版本必须在 3.11 以上。这里主要演示 Mac 如何搭建,Windows 也是类似的操作。
1. 安装 uv
# 官方推荐使用 uv 管理
brew install uv
2. 拉取项目安装依赖
# 从 github 拉取项目
git clone https://github.com/browser-use/web-ui.git
cd web-ui
# 搭建该项目的 python 虚拟环境,这里 python 环境使用 3.11
uv venv --python 3.11
# 初始化虚拟环境配置
source .venv/bin/activate
# 安装 python 依赖
uv pip install -r requirements.txt
## 安装浏览器依赖,大家根据自己情况选择即可
# 仅安装 Chrome 依赖
playwright install --with-deps chromium
# 安装所有浏览器依赖
playwright install
3. 配置浏览器及大模型参数
这里也可以使用本地通过 ollama 配置的大模型,比如 Deepseek r1-14b
# 拷贝示例配置文件
copy .env.example .env
# 1. 配置浏览器位置:CHROME_PATH。这里以 chrome 为例
CHROME_PATH="/Applications/Google Chrome.app/Contents/MacOS/Google Chrome"
CHROME_USER_DATA=
DEEPSEEK_ENDPOINT=https://api.deepseek.com
DEEPSEEK_API_KEY=xxxx
OLLAMA_ENDPOINT=http://localhost:11434


