Browser-use：Python 智能浏览器自动化 AI 工具实战 | 极客日志

PythonAI大前端

Browser-use：Python 智能浏览器自动化 AI 工具实战

Browser-use 是一个结合 LangChain 与 Playwright 的 Python 库，让 AI Agent 能直接操作真实浏览器。通过配置 LLM 和 Agent 参数，它可以自动完成网页访问、元素交互及数据提取任务。本文梳理了安装环境、核心配置（Agent/Browser）、多模型支持及实战示例，涵盖本地 Chrome 调用与 Gradio UI 搭建，并整理了常见报错解决方案，帮助开发者快速构建具备浏览能力的智能体应用。

山野诗人发布于 2026/3/24更新于 2026/7/2536 浏览

概述

Browser-use 是一个基于 Python 的库，旨在将 AI Agent 与真实浏览器深度结合。配合 LLM（如 GPT、Claude 等），它能让智能体自动访问网页、操作元素、收集信息甚至执行脚本，极大地扩展了 AI 在 Web 场景下的落地能力。

核心依赖包括 LangChain（Agent 框架）、Playwright（浏览器自动化）、dotenv（环境变量管理）以及异步 I/O 架构。目前最低支持 Python 3.11 版本。

技术流程

整体逻辑遵循：语言模型决策 -> 控制层解析 -> 浏览器执行 -> 数据回传 -> 模型后处理。这种闭环让 Agent 具备了'看'和'做'的能力。

安装与环境配置

1. Python 环境

推荐使用 Python 3.11 或更高版本，并在独立虚拟环境中运行。

若使用 pyenv 管理版本，可参考以下命令：

brew install pyenv
pyenv install 3.11.9

初始化配置需添加到 shell 配置文件（如 .zshrc）：

export PYENV_ROOT="$HOME/.pyenv"
export PATH="$PYENV_ROOT/bin:$PATH"
eval "$(pyenv init -)"

2. 安装 Browser-use

直接通过 pip 安装即可：

pip3 install browser-use

随后需要安装 Playwright 驱动，这会自动下载 Chromium 无头浏览器：

playwright install

3. 配置 API Key

在 .env 文件中填入对应的密钥，例如：

OPENAI_API_KEY=sk-xxxxxxx
ANTHROPIC_API_KEY=xxxxxx

若使用其他模型，请参照 LangChain 文档进行相应配置。

核心配置详解

1. Agent 参数

Agent 是交互的核心入口。除了必传的 task 和 llm，还有一些关键参数值得注意：

参数	说明
use_vision	是否启用视觉能力（截图分析）。DeepSeek 类模型建议设为 False 以节省成本。
max_steps	最大执行步数，防止死循环，默认 100。

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

from browser_use import BrowserConfig
config = BrowserConfig(
    headless=False,  # 显示浏览器窗口
    disable_security=True  # 禁用安全限制
)
browser = Browser(config=config)

from browser_use.browser.context import BrowserContextConfig
context_config = BrowserContextConfig(
    cookies_file="cookies.json",  # 持久化 Cookie
    wait_for_network_idle_page_load_time=3.0,
    viewport_expansion=500  # 视口扩展范围
)

import asyncio
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from browser_use import Agent

load_dotenv()

async def main():
    llm = ChatOpenAI(model="gpt-4o")
    agent = Agent(
        task="打开 https://cn.vuejs.org/guide/essentials/computed，获取页面里所有的 h2 标签文本及所有的 a 标签文本",
        llm=llm
    )
    result = await agent.run()
    print('result:', result)

if __name__ == '__main__':
    asyncio.run(main())

from browser_use import Browser, BrowserConfig

browser = Browser(
    config=BrowserConfig(
        chrome_instance_path='/Applications/Google Chrome.app/Contents/MacOS/Google Chrome'
    )
)

from pydantic import BaseModel
from typing import List
from browser_use import Controller

class Post(BaseModel):
    post_title: str
    post_url: str

class Posts(BaseModel):
    posts: List[Post]

controller = Controller(output_model=Posts)
agent = Agent(task=task, llm=model, controller=controller)
history = await agent.run()
result = history.final_result()

agent1 = Agent(task="搜索 Vue 相关文章", llm=llm, use_vision=False)
agent2 = Agent(task="搜索 React 相关文章", llm=llm, use_vision=False)
# 分别运行...

import gradio as gr
import asyncio
from browser_use import Agent

async def run_browser_task(task: str) -> str:
    try:
        agent = Agent(task=task, llm=llm, use_vision=False)
        result = await agent.run()
        return result.final_result()
    except Exception as e:
        return f'Error: {str(e)}'

def create_ui():
    with gr.Blocks(title='Browser Use GUI') as interface:
        gr.Markdown('# Browser Use Task Automation')
        with gr.Row():
            with gr.Column():
                task_input = gr.Textbox(label='Task Description', lines=3)
                submit_btn = gr.Button('Run Task')
            with gr.Column():
                output = gr.Textbox(label='Output', lines=10)
            submit_btn.click(fn=lambda t: asyncio.run(run_browser_task(t)), inputs=[task_input], outputs=[output])
    return interface

if __name__ == '__main__':
    demo = create_ui()
    demo.launch()

Browser-use：Python 智能浏览器自动化 AI 工具实战

概述

技术流程

安装与环境配置

1. Python 环境

2. 安装 Browser-use

3. 配置 API Key

核心配置详解

1. Agent 参数

更多推荐文章

相关免费在线工具

2. Browser 配置

3. 输出与历史追踪

实战示例

1. 基础用法

2. 调用本地 Chrome

3. 结构化输出

4. 多 Agent 协作

UI 演示 (Gradio)

常见问题排查

总结

更多推荐文章

相关免费在线工具

Browser-use：Python 智能浏览器自动化 AI 工具实战

概述

技术流程

安装与环境配置

1. Python 环境

2. 安装 Browser-use

3. 配置 API Key

核心配置详解

1. Agent 参数

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. Browser 配置

3. 输出与历史追踪

实战示例

1. 基础用法

2. 调用本地 Chrome

3. 结构化输出

4. 多 Agent 协作

UI 演示 (Gradio)

常见问题排查

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具