Browser Use 使用指南：AI 自动化控制浏览器 | 极客日志

PythonAI算法

Browser Use 使用指南：AI 自动化控制浏览器

Browser Use 是一款开源 Python 库，支持 LLM 自动控制浏览器。具备多模型支持、视觉感知及智能交互能力。用户可通过 pip 安装并配置 API 密钥快速上手。核心组件为 Agent 与基于 Playwright 的 Browser，适用于数据收集、表单填写及网页分析。使用时需确保任务描述清晰，注意成本与安全。

并发大师发布于 2026/4/5更新于 2026/7/2657 浏览

什么是 Browser Use？

Browser Use 是一个开源 Python 库，它允许 AI 大型语言模型（LLM）自动控制和操作网页浏览器。通过 Browser Use，你可以让 AI 像人类一样浏览网页、点击按钮、填写表单、提取数据，从而实现各种自动化任务。

Browser Use 的核心特性

多模型支持：支持 OpenAI GPT-4、Claude、Gemini 等主流 LLM
视觉感知：AI 可以看到网页截图并理解页面内容
智能交互：自动识别可交互元素（按钮、链接、输入框等）
任务规划：AI 会自动规划步骤完成复杂任务
并行处理：支持多个浏览器实例并行运行

快速开始

1. 安装 Browser Use

pip install browser-use playwright install chromium

2. 配置 API 密钥

创建 .env 文件并配置你的 LLM API 密钥：

OPENAI_API_KEY=your_api_key_here # 或者使用其他模型 ANTHROPIC_API_KEY=your_anthropic_key

3. 编写你的第一个 Browser Use 脚本

import asyncio
from langchain_openai import ChatOpenAI
from browser_use import Agent

async def main():
    agent = Agent(
        task="搜索最新的 Python 教程并总结前 3 个结果",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

核心组件详解

Agent（智能体）

Agent 是 Browser Use 的核心，它负责：

接收用户任务描述
与 LLM 通信，规划执行步骤
控制浏览器完成各项操作
收集并返回结果

Browser（浏览器）

Browser Use 基于 Playwright 构建，支持：

Chromium、Firefox、WebKit 等多种浏览器
无头模式（Headless）和有界面模式
自定义浏览器配置

实际应用案例

案例 1：自动化数据收集

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

agent = Agent(
    task="访问 https://example.com/products，提取所有产品名称和价格，保存为列表",
    llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()

agent = Agent(
    task="打开 Gmail，给 [email protected] 发送一封主题为'测试'的邮件，内容为'Hello World'",
    llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()

agent = Agent(
    task="搜索'Python 机器学习'，打开前 5 个结果，总结每个页面的主要内容",
    llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()

from browser_use import Agent, Browser, BrowserConfig

browser = Browser(
    config=BrowserConfig(
        headless=False, # 显示浏览器界面
        chrome_instance_path='/usr/bin/google-chrome',
    )
)
agent = Agent(
    task="你的任务",
    llm=ChatOpenAI(model="gpt-4o"),
    browser=browser,
)
result = await agent.run()
await browser.close()

# 使用 Claude
from langchain_anthropic import ChatAnthropic
agent = Agent(
    task="你的任务",
    llm=ChatAnthropic(model_name="claude-3-5-sonnet-20241022"),
)

# 使用 Gemini
from langchain_google_genai import ChatGoogleGenerativeAI
agent = Agent(
    task="你的任务",
    llm=ChatGoogleGenerativeAI(model="gemini-2.0-flash-exp"),
)

Browser Use 使用指南：AI 自动化控制浏览器

什么是 Browser Use？

Browser Use 的核心特性

快速开始

1. 安装 Browser Use

2. 配置 API 密钥

3. 编写你的第一个 Browser Use 脚本

核心组件详解

Agent（智能体）

Browser（浏览器）

实际应用案例

案例 1：自动化数据收集

更多推荐文章

相关免费在线工具

案例 2：自动填写表单

案例 3：网页内容分析

高级配置

自定义浏览器设置

使用不同的 LLM 模型

注意事项与最佳实践

总结

更多推荐文章

相关免费在线工具

Browser Use 使用指南：AI 自动化控制浏览器

什么是 Browser Use？

Browser Use 的核心特性

快速开始

1. 安装 Browser Use

2. 配置 API 密钥

3. 编写你的第一个 Browser Use 脚本

核心组件详解

Agent（智能体）

Browser（浏览器）

实际应用案例

案例 1：自动化数据收集

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

案例 2：自动填写表单

案例 3：网页内容分析

高级配置

自定义浏览器设置

使用不同的 LLM 模型

注意事项与最佳实践

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具