最近做 AI Agent 相关开发时,有个问题一直挺让人头疼:怎么让 AI 真正操作网页? Selenium、Playwright 这些传统工具虽然好用,但写代码定位元素、处理交互太费劲了。前阵子发现 browser-use 这个项目,它的思路挺有意思——让 AI Agent 像人一样用浏览器。
这是个开源项目,GitHub 上已经有 76,000+ Stars。用法简单到有点离谱:告诉 AI 要做什么,它自己就打开浏览器、找页面、点按钮、填表单,搞定。
https://github.com/browser-use/browser-use

技术架构

browser-use 用了Agent + Browser + LLM三层结构:
- Agent 层:负责任务规划和步骤拆分,把自然语言转成浏览器操作
- Browser 层:封装了 Playwright,支持本地 Chrome 和远程 Cloud 两种模式
- LLM 层:项目搞了个专门优化的 ChatBrowserUse 模型,官方数据说比通用模型快 3-5 倍
代码用 Python 异步模式写的,性能还行。98% 以上都是 Python,结构挺清楚,容易看懂和改。
另外项目有个官方 Cloud 服务,能解决本地跑浏览器的内存和反爬问题。Cloud 版提供了隐身浏览器、代理轮换、内存管理这些生产需要的东西。
核心功能
1. 自然语言任务定义

不需要编写复杂的 XPath 选择器或 CSS 定位代码,只需用自然语言描述任务目标。比如"帮我找到 browser-use 仓库的 Star 数量",Agent 会自动解析任务,规划步骤,然后执行。
2. 智能页面交互
Agent 能够理解网页结构,智能识别可交互元素。无论是点击按钮、填写表单、滚动页面还是处理弹窗,都能像人类用户一样自然应对。项目基于 Playwright 构建,继承了其强大的浏览器控制能力。
3. 多平台表单自动填写
这个功能可能是最实用的。拿找工作来说,准备一份简历,让 Agent 自动访问招聘网站,逐项填表。省得自己一遍遍填那些重复的信息。
4. 电商采购自动化
网上买菜这种事,交给 Agent 就行。告诉它要买什么,它打开 Instacart 或别的平台,搜索、比价、加购物车、结算,一套流程自己搞定。




