browser-use：让 AI Agent 真正会用浏览器

browser-use 是一个开源项目，旨在让 AI Agent 像人类一样操作浏览器。它采用 Agent + Browser + LLM 三层架构，基于 Python 和 Playwright 构建。核心功能包括自然语言任务定义、智能页面交互、多平台表单自动填写及电商采购自动化等。支持本地 Chrome 和远程 Cloud 模式，并提供自定义工具扩展。通过简单配置即可实现网页自动化，解决 AI 操作网页的痛点。

协议工匠发布于 2026/3/28更新于 2026/7/2354 浏览

最近做 AI Agent 相关开发时，有个问题一直挺让人头疼：怎么让 AI 真正操作网页？ Selenium、Playwright 这些传统工具虽然好用，但写代码定位元素、处理交互太费劲了。前阵子发现 browser-use 这个项目，它的思路挺有意思——让 AI Agent 像人一样用浏览器。

这是个开源项目，GitHub 上已经有 76,000+ Stars。用法简单到有点离谱：告诉 AI 要做什么，它自己就打开浏览器、找页面、点按钮、填表单，搞定。

https://github.com/browser-use/browser-use

Browser-Use Logo

技术架构

三层架构图 - 展示 Agent+Browser+LLM 三层技术架构

browser-use 用了Agent + Browser + LLM三层结构：

Agent 层：负责任务规划和步骤拆分，把自然语言转成浏览器操作
Browser 层：封装了 Playwright，支持本地 Chrome 和远程 Cloud 两种模式
LLM 层：项目搞了个专门优化的 ChatBrowserUse 模型，官方数据说比通用模型快 3-5 倍

代码用 Python 异步模式写的，性能还行。98% 以上都是 Python，结构挺清楚，容易看懂和改。

另外项目有个官方 Cloud 服务，能解决本地跑浏览器的内存和反爬问题。Cloud 版提供了隐身浏览器、代理轮换、内存管理这些生产需要的东西。

核心功能

1. 自然语言任务定义

NLP 智能交互 - 展示自然语言处理的智能交互场景

不需要编写复杂的 XPath 选择器或 CSS 定位代码，只需用自然语言描述任务目标。比如"帮我找到 browser-use 仓库的 Star 数量"，Agent 会自动解析任务，规划步骤，然后执行。

2. 智能页面交互

Agent 能够理解网页结构，智能识别可交互元素。无论是点击按钮、填写表单、滚动页面还是处理弹窗，都能像人类用户一样自然应对。项目基于 Playwright 构建，继承了其强大的浏览器控制能力。

3. 多平台表单自动填写

这个功能可能是最实用的。拿找工作来说，准备一份简历，让 Agent 自动访问招聘网站，逐项填表。省得自己一遍遍填那些重复的信息。

4. 电商采购自动化

网上买菜这种事，交给 Agent 就行。告诉它要买什么，它打开 Instacart 或别的平台，搜索、比价、加购物车、结算，一套流程自己搞定。

电商自动化采购 - 展示电商采购自动化的场景

5. 智能研究助手

要装机不知道怎么选配置？Agent 能去 PCPartPicker 这类网站，根据预算和需求帮你挑配件，还能检查兼容性。

6. 自定义工具扩展

Python 模块化插件 - 展示 Python 代码模块化和插件扩展的概念

想加个新功能？写个 Python 函数，用装饰器一注册就行。扩展起来挺方便的。

快速开始

安装挺简单的，推荐用 uv：

# 创建项目环境
uv init
# 安装 browser-use 包
uv add browser-use
uv sync
# 安装 Chromium 浏览器
uvx browser-use install

前往 Browser Use Cloud 获取 API Key，放到 .env 文件：

BROWSER_USE_API_KEY=your-key

然后就能写第一个 Agent 了：

from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def example():
    browser = Browser()
    llm = ChatBrowserUse()
    agent = Agent(
        task="Find the number of stars of the browser-use repo",
        llm=llm,
        browser=browser,
    )
    history = await agent.run()
    return history

if __name__ == "__main__":
    history = asyncio.run(example())

就这几行，Agent 会自动打开浏览器、访问 GitHub、找到 Star 数。

项目还有个模板快速生成功能：

uvx browser-use init --template default

有 default、advanced、tools 三种模板，直接拿来改就行。

总结

browser-use 是个挺实用的工具，解决了 AI 操作网页这个真实痛点。

项目在 GitHub 上增长很快，社区也挺活跃。如果你在做 AI Agent 相关开发，或者有网页自动化的需求，可以试试。

这是个开源项目，GitHub 上已经有 76,000+ Stars。用法简单到有点离谱：告诉 AI 要做什么，它自己就打开浏览器、找页面、点按钮、填表单，搞定。

https://github.com/browser-use/browser-use

Browser-Use Logo

技术架构

三层架构图 - 展示 Agent+Browser+LLM 三层技术架构

browser-use 用了Agent + Browser + LLM三层结构：

Agent 层：负责任务规划和步骤拆分，把自然语言转成浏览器操作
Browser 层：封装了 Playwright，支持本地 Chrome 和远程 Cloud 两种模式
LLM 层：项目搞了个专门优化的 ChatBrowserUse 模型，官方数据说比通用模型快 3-5 倍

代码用 Python 异步模式写的，性能还行。98% 以上都是 Python，结构挺清楚，容易看懂和改。

另外项目有个官方 Cloud 服务，能解决本地跑浏览器的内存和反爬问题。Cloud 版提供了隐身浏览器、代理轮换、内存管理这些生产需要的东西。

核心功能

1. 自然语言任务定义

NLP 智能交互 - 展示自然语言处理的智能交互场景

2. 智能页面交互

3. 多平台表单自动填写

这个功能可能是最实用的。拿找工作来说，准备一份简历，让 Agent 自动访问招聘网站，逐项填表。省得自己一遍遍填那些重复的信息。

4. 电商采购自动化

网上买菜这种事，交给 Agent 就行。告诉它要买什么，它打开 Instacart 或别的平台，搜索、比价、加购物车、结算，一套流程自己搞定。

电商自动化采购 - 展示电商采购自动化的场景

5. 智能研究助手

要装机不知道怎么选配置？Agent 能去 PCPartPicker 这类网站，根据预算和需求帮你挑配件，还能检查兼容性。

6. 自定义工具扩展

Python 模块化插件 - 展示 Python 代码模块化和插件扩展的概念

想加个新功能？写个 Python 函数，用装饰器一注册就行。扩展起来挺方便的。

快速开始

安装挺简单的，推荐用 uv：

# 创建项目环境
uv init
# 安装 browser-use 包
uv add browser-use
uv sync
# 安装 Chromium 浏览器
uvx browser-use install

前往 Browser Use Cloud 获取 API Key，放到 .env 文件：

BROWSER_USE_API_KEY=your-key

然后就能写第一个 Agent 了：

from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def example():
    browser = Browser()
    llm = ChatBrowserUse()
    agent = Agent(
        task="Find the number of stars of the browser-use repo",
        llm=llm,
        browser=browser,
    )
    history = await agent.run()
    return history

if __name__ == "__main__":
    history = asyncio.run(example())

就这几行，Agent 会自动打开浏览器、访问 GitHub、找到 Star 数。

项目还有个模板快速生成功能：

uvx browser-use init --template default

有 default、advanced、tools 三种模板，直接拿来改就行。

总结

browser-use 是个挺实用的工具，解决了 AI 操作网页这个真实痛点。

项目在 GitHub 上增长很快，社区也挺活跃。如果你在做 AI Agent 相关开发，或者有网页自动化的需求，可以试试。

browser-use：让 AI Agent 真正会用浏览器

技术架构

核心功能

1. 自然语言任务定义

2. 智能页面交互

3. 多平台表单自动填写

4. 电商采购自动化

5. 智能研究助手

6. 自定义工具扩展

快速开始

总结

browser-use：让 AI Agent 真正会用浏览器

技术架构

核心功能

1. 自然语言任务定义

2. 智能页面交互

3. 多平台表单自动填写

4. 电商采购自动化

5. 智能研究助手

6. 自定义工具扩展

快速开始

总结

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

browser-use：让 AI Agent 真正会用浏览器

技术架构

核心功能

1. 自然语言任务定义

2. 智能页面交互

3. 多平台表单自动填写

4. 电商采购自动化

5. 智能研究助手

6. 自定义工具扩展

快速开始

总结

browser-use：让 AI Agent 真正会用浏览器

技术架构

核心功能

1. 自然语言任务定义

2. 智能页面交互

3. 多平台表单自动填写

4. 电商采购自动化

5. 智能研究助手

6. 自定义工具扩展

快速开始

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具