Python 浏览器自动化：Playwright 结合 AI 的最佳实践 | 极客日志

PythonAI大前端

Python 浏览器自动化：Playwright 结合 AI 的最佳实践

Playwright 作为现代 Web 自动化工具，相比 Selenium 具备更快的速度、更强的稳定性和跨浏览器支持。文章详解了异步并发最佳实践、Trace 调试器使用，并结合大语言模型实现视觉定位自愈功能。此外还涵盖了反爬虫伪装技巧及高性能集群部署方案，为构建鲁棒的自动化 Agent 提供完整技术路径。

苹果系统发布于 2026/4/7更新于 2026/7/1439 浏览

摘要：在 Web 自动化领域，Selenium 曾经的霸主地位已成历史，Playwright 凭其'快、稳、强'的现代特性成为了新标准。而在 2026 年，随着 LLM（大语言模型）和视觉多模态模型的爆发，自动化测试与 RPA（机器人流程自动化）迎来了范式革命。本文将深度解析 Playwright 的核心架构，并手把手教你构建一个具备'自愈能力'的 AI 驱动自动化 Agent。

1. Selenium 已死，Playwright 当立？

1.1 自动化的'不可能三角'

长期以来，Web 自动化工程师都在速度、稳定性和抗检测性之间做取舍：

Selenium: 标准兼容好，但太慢，经常出现 ElementNotInteractableException。
Puppeteer: 快，但原生只支持 Chrome，Python 生态支持一般。
Cypress: 开发者体验好，但局限于浏览器内部，无法跨 Tab 操作。

Playwright 的出现打破了这个僵局。作为微软开源的神器，它基于 CDP (Chrome DevTools Protocol) 但又不仅限于此，提供了跨浏览器（Chromium, Firefox, WebKit）的统一 API。

1.2 为什么是 Playwright？

自动等待（Auto-waiting）：告别 time.sleep()。Playwright 会自动等待元素显式、可点击后再执行操作。
网络拦截（Network Interception）：原生支持修改请求和响应，做 Mock 测试极为方便。
浏览器上下文（Browser Context）：一个浏览器实例通过'沙箱'隔离，可以毫秒级创建上百个独立的'账号环境'，并发测试神器。
Shadow DOM 穿透：原生的 CSS 选择器即可穿透 Shadow DOM，这是 Selenium 的噩梦。

2. Playwright 核心实战：不仅仅是点点点

2.1 异步与并发的最佳实践

在 Python 中，建议使用 async_playwright 来最大化性能。

import asyncio
from playwright.async_api import async_playwright

async def run():
    async with async_playwright() as p:
        # 启动浏览器（headless=False 可以看见界面）
        browser = await p.chromium.launch(headless=False)
        # 创建上下文（相当于隐身模式窗口）
        context = await browser.new_context(
            viewport={'width': 1920, 'height': 1080},
            user_agent=
        )
        page =  context.new_page()
         page.goto()
        
        
         page.click()
        
         page.click()
        
         page.fill(, )
        
         page.screenshot(path=)
         browser.close()

asyncio.run(run())

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

await context.tracing.start(screenshots=True, snapshots=True, sources=True)
# ... 执行操作 ...
await context.tracing.stop(path="trace.zip")

import base64
from openai import AsyncOpenAI

client = AsyncOpenAI(api_key="sk-...")

async def ai_smart_click(page, description):
    """ 当常规选择器失败时，使用 AI 进行视觉定位点击 """
    try:
        # 1. 尝试常规模糊定位
        await page.click(f"text={description}", timeout=2000)
    except Exception:
        print(f"常规定位失败，启动 AI 视觉定位：{description}...")
        # 2. 截图
        screenshot_bytes = await page.screenshot()
        base64_image = base64.b64encode(screenshot_bytes).decode('utf-8')
        # 3. 询问 VLM (Visual Language Model)
        response = await client.chat.completions.create(
            model="gpt-4o",
            messages=[{
                "role": "user",
                "content": [
                    {"type": "text", "text": f"Locate the center coordinates (x, y) of the element described as '{description}' on this webpage screenshot. Return ONLY json like {{'x': 100, 'y': 200}}."},
                    {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}}
                ]
            }],
            response_format={"type": "json_object"}
        )
        coords = eval(response.choices[0].message.content)
        print(f"AI 定位坐标：{coords}")
        # 4. 执行物理点击
        await page.mouse.click(coords['x'], coords['y'])

# 使用
# await ai_smart_click(page, "蓝色的提交订单按钮")

async def stealth_init(page):
    await page.add_init_script("""
        // 掩盖 webdriver 属性
        Object.defineProperty(navigator, 'webdriver', {
            get: () => undefined
        });
        // 伪造 Chrome 插件列表 (如果是 headless 模式)
        if (!navigator.plugins || navigator.plugins.length === 0) {
            // ... 注入 Mock 数据
        }
        // 覆盖 WebGL 指纹
        const getParameter = WebGLRenderingContext.prototype.getParameter;
        WebGLRenderingContext.prototype.getParameter = function(parameter) {
            if (parameter === 37445) {
                return 'Intel Inc.';
            }
            if (parameter === 37446) {
                return 'Intel Iris OpenGL Engine';
            }
            return getParameter(parameter);
        };
    """)

# 登录一次保存状态
await page.context.storage_state(path="state.json")
# 下次直接加载
context = await browser.new_context(storage_state="state.json")

async def worker(context, queue):
    while True:
        url = await queue.get()
        page = await context.new_page()
        try:
            # 开启资源过滤，极大提升速度
            await page.route("**/*.{png,jpg,jpeg,gif,css,font}", lambda route: route.abort())
            await page.goto(url)
            # ... 业务逻辑 ...
        finally:
            await page.close()
        queue.task_done()

async def main():
    queue = asyncio.Queue()
    # 填充任务
    for i in range(1000):
        queue.put_nowait(f"https://example.com/item/{i}")
    async with async_playwright() as p:
        browser = await p.chromium.launch()
        context = await browser.new_context()
        # 启动 10 个并发 Worker 共享同一个浏览器实例（资源开销最小）
        workers = [asyncio.create_task(worker(context, queue)) for _ in range(10)]
        await queue.join()

Python 浏览器自动化：Playwright 结合 AI 的最佳实践

1. Selenium 已死，Playwright 当立？

1.1 自动化的'不可能三角'

1.2 为什么是 Playwright？

2. Playwright 核心实战：不仅仅是点点点

2.1 异步与并发的最佳实践

更多推荐文章

相关免费在线工具

2.2 Trace Viewer：时间旅行调试器

3. AI 赋能：构建自愈自动化脚本

3.1 视觉定位（Visual Grounding）

3.2 实战：AI 自愈点击函数

4. 反爬与隐身（Stealth Mode）

4.1 特征检测原理

4.2 完美伪装方案

5. 高性能集群化部署

5.1 生产者 - 消费者模式

结语：自动化测试的终局

更多推荐文章

相关免费在线工具

Python 浏览器自动化：Playwright 结合 AI 的最佳实践

1. Selenium 已死，Playwright 当立？

1.1 自动化的'不可能三角'

1.2 为什么是 Playwright？

2. Playwright 核心实战：不仅仅是点点点

2.1 异步与并发的最佳实践

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 Trace Viewer：时间旅行调试器

3. AI 赋能：构建自愈自动化脚本

3.1 视觉定位（Visual Grounding）

3.2 实战：AI 自愈点击函数

4. 反爬与隐身（Stealth Mode）

4.1 特征检测原理

4.2 完美伪装方案

5. 高性能集群化部署

5.1 生产者 - 消费者模式

结语：自动化测试的终局

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具