Python 驱动浏览器自动化：Playwright + AI 的 2026 最佳实践

Ne0inhk

24 Mar 2026 — 7 min read

摘要：在 Web 自动化领域，Selenium 曾经的霸主地位已成历史，Playwright 凭其“快、稳、强”的现代特性成为了新标准。而在 2026 年，随着 LLM（大语言模型）和视觉多模态模型的爆发，自动化测试与 RPA（机器人流程自动化）迎来了范式革命。本文将深度解析 Playwright 的核心架构，并手把手教你构建一个具备“自愈能力”的 AI 驱动自动化 Agent。本文超 7000 字，包含大量实战代码与反爬对抗技巧。

第一章：Selenium 已死，Playwright 当立？

1.1 自动化的“不可能三角”

长期以来，Web 自动化工程师都在速度、稳定性和抗检测性之间做取舍：

Selenium: 标准兼容好，但太慢，经常出现 ElementNotInteractableException。
Puppeteer: 快，但原生只支持 Chrome，Python 生态支持一般。
Cypress: 开发者体验好，但局限于浏览器内部，无法跨 Tab 操作。

Playwright 的出现打破了这个僵局。作为微软开源的神器，它基于 CDP (Chrome DevTools Protocol) 但又不仅限于此，提供了跨浏览器（Chromium, Firefox, WebKit）的统一 API。

1.2 为什么是 Playwright？

自动等待（Auto-waiting）：告别 time.sleep()。Playwright 会自动等待元素显式、可点击后再执行操作。
网络拦截（Network Interception）：原生支持修改请求和响应，做 Mock 测试极为方便。
浏览器上下文（Browser Context）：一个浏览器实例通过“沙箱”隔离，可以毫秒级创建上百个独立的“账号环境”，并发测试神器。
Shadow DOM 穿透：原生的 CSS 选择器即可穿透 Shadow DOM，这是 Selenium 的噩梦。

Playwright Script
(Playwright 脚本)

Browser Server
(浏览器服务)

Context 1 (Profile A)
(上下文 1 - 配置文件A)

Context 2 (Profile B)
(上下文 2 - 配置文件B)

Page 1
(页面 1)

Page 2
(页面 2)

Page 1
(页面 1)

第二章：Playwright 核心实战：不仅仅是点点点

2.1 异步与并发的最佳实践

在 Python 中，建议使用 async_playwright 来最大化性能。

import asyncio from playwright.async_api import async_playwright asyncdefrun():asyncwith async_playwright()as p:# 启动浏览器（headless=False 可以看见界面） browser =await p.chromium.launch(headless=False)# 创建上下文（相当于隐身模式窗口） context =await browser.new_context( viewport={'width':1920,'height':1080}, user_agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)...") page =await context.new_page()await page.goto("https://example.com")# 强大的选择器# 文本定位await page.click("text=Get Started")# CSS + 文本混合await page.click("button:has-text('Login')")# XPath (不推荐，但支持)await page.fill("//input[@name='username']","admin")# 截图保存证据await page.screenshot(path="example.png")await browser.close() asyncio.run(run())

2.2 Trace Viewer：时间旅行调试器

这是 Playwright 最杀手级的功能。通过录制 Trace，你可以事后回放整个脚本执行过程。

Timeline：每一毫秒发生了什么。
Snapshots：查看操作前后的 DOM 快照。
Network：查看每个点击触发了什么网络请求。

启用方式非常简单：

await context.tracing.start(screenshots=True, snapshots=True, sources=True)# ... 执行操作 ...await context.tracing.stop(path ="trace.zip")

然后用 playwright show-trace trace.zip 即可可视化分析。

第三章：AI 赋能——构建“自愈”自动化脚本

传统脚本最怕什么？前端改版。
只要开发把 <button> 改成了 <button>，你的脚本就挂了。

在 2026 年，我们不需要手动修脚本，我们让 AI 来修。

3.1 视觉定位（Visual Grounding）

如果选择器失效，我们可以抓取当前页面的截图，发给 GPT-4o 或 Gemini 1.5 Pro 这样的多模态模型，问它：“注册按钮在哪里？”

3.2 实战：AI 自愈点击函数

import base64 from openai import AsyncOpenAI client = AsyncOpenAI(api_key="sk-...")asyncdefai_smart_click(page, description):""" 当常规选择器失败时，使用 AI 进行视觉定位点击 """try:# 1. 尝试常规模糊定位await page.click(f"text={description}", timeout=2000)except Exception:print(f"常规定位失败，启动 AI 视觉定位: {description}...")# 2. 截图 screenshot_bytes =await page.screenshot() base64_image = base64.b64encode(screenshot_bytes).decode('utf-8')# 3. 询问 VLM (Visual Language Model) response =await client.chat.completions.create( model="gpt-4o", messages=[{"role":"user","content":[{"type":"text","text":f"Locate the center coordinates (x, y) of the element described as '{description}' on this webpage screenshot. Return ONLY json like {{'x': 100, 'y': 200}}."},{"type":"image_url","image_url":{"url":f"data:image/jpeg;base64,{base64_image}"}}],}], response_format={"type":"json_object"}) coords =eval(response.choices[0].message.content)print(f"AI 定位坐标: {coords}")# 4. 执行物理点击await page.mouse.click(coords['x'], coords['y'])# 使用# await ai_smart_click(page, "蓝色的提交订单按钮")

这种模式虽然比纯选择器慢（需要调用 API），但它极大地提高了脚本的鲁棒性。在关键业务流程（如支付下单）中，稳定性高于一切。

第四章：反爬与隐身（Stealth Mode）

现在稍微像样点的网站都有 Bot 检测（Cloudflare, Akamai）。直接用 Playwright 可能会被识别为机器人。

4.1 特征检测原理

网站会检查 navigator.webdriver 属性，或者检测 WebGL 指纹、字体列表等。

4.2 完美伪装方案

我们可以使用 playwright-stealth 库，或者手动注入 JS 来掩盖特征。

asyncdefstealth_init(page):await page.add_init_script(""" // 掩盖 webdriver 属性 Object.defineProperty(navigator, 'webdriver', { get: () => undefined }); // 伪造 Chrome 插件列表 (如果是 headless 模式) if (!navigator.plugins || navigator.plugins.length === 0) { // ... 注入 Mock 数据 } // 覆盖 WebGL 指纹 const getParameter = WebGLRenderingContext.prototype.getParameter; WebGLRenderingContext.prototype.getParameter = function(parameter) { if (parameter === 37445) { return 'Intel Inc.'; } if (parameter === 37446) { return 'Intel Iris OpenGL Engine'; } return getParameter(parameter); }; """)

此外，最重要的技巧是保存状态（State Storage）。不要每次都重新登录，而是像真能人一样复用 Cookies。

# 登录一次保存状态await page.context.storage_state(path="state.json")# 下次直接加载 context =await browser.new_context(storage_state="state.json")

第五章：高性能集群化部署

当你需要每天抓取 100 万个页面，单机单进程就不够看了。

5.1 生产者-消费者模式

结合我们之前讲的 asyncio，我们可以构建一个极致性能的爬虫集群。

asyncdefworker(context, queue):whileTrue: url =await queue.get() page =await context.new_page()try:# 开启资源过滤，极大提升速度await page.route("**/*.{png,jpg,jpeg,gif,css,font}",lambda route: route.abort())await page.goto(url)# ... 业务逻辑 ...finally:await page.close() queue.task_done()asyncdefmain(): queue = asyncio.Queue()# 填充任务for i inrange(1000): queue.put_nowait(f"https://example.com/item/{i}")asyncwith async_playwright()as p: browser =await p.chromium.launch() context =await browser.new_context()# 启动 10 个并发 Worker 共享同一个浏览器实例（资源开销最小） workers =[asyncio.create_task(worker(context, queue))for _ inrange(10)]await queue.join()

这种共享 Browser Instance 但隔离 Page 的模式，比开启 10 个浏览器要节省 90% 的内存。

结语：自动化测试的终局

2026 年的 Playwright 已经不再仅仅是一个测试工具，它是连接 AI 大脑与数字世界的手臂。

对于测试工程师：掌握 Playwright + AI，意味着你可以写出永远不挂的测试用例。
对于爬虫工程师：Playwright 提供了最强的渲染能力和对抗能力。
对于全栈开发：它是在后端生成 PDF、截图、自动化运维的最佳胶水。

未来已来，现在的自动化不再是写死的脚本，而是能够感知、理解并自我修复的智能 Agent。

本文代码基于 Playwright Python 1.45+ 版本编写。

B站PC端web自动开启字幕脚本（2025新版适配）

B站自动字幕用户脚本：快捷键开关 + 自动开启字幕（2026新版适配）作者：Apixus 更新日期：2026年3月5日项目地址：GitHub仓库一、脚本介绍你是否经常在B站看视频时反复手动开启字幕？是否希望切换视频时字幕能自动开启？这个用户脚本就是为了解决这些问题而开发的。 B站自动字幕脚本提供了以下功能： * 🎯 快捷键控制：按 C 键快速开启或关闭字幕 * 🔄 自动开启：切换分P、点击推荐视频时自动打开字幕 * 🆕 2026新版适配：专为B站最新版播放器优化 * ⚡ 性能优化：智能监听，告别卡顿轮询 * 🛡️ 防冲突：自动识别输入框，避免误触二、适用页面 * 普通视频页：https://www.bilibili.com/video/* * 播放列表页：https://www.bilibili.com/list/* 支持普通视频页、番剧页、播放列表页等常见场景。三、

LeetCode 42接雨水全解：暴力超时→DP降维打击→双指针极限压缩空间→单调栈栈式凹槽定位，全景式解析算法优化路径

文章目录 * 本篇摘要 * LeetCode 42 接雨水详解 * ① 暴力解法（多循环嵌套，卡超时，因此后续使用了两种基于暴力优化的方法） * ② 动态规划解法 * 核心思想 * 步骤（三步走） * 举例说明 * 代码实现思路 * ③ 双指针解法（优化对应的dp的空间复杂度变成O(1)） * 双指针优化思路 * ④单调栈解法 * 单调栈简介 * 核心特点 * 常见用途 * 左边最近比当前数大的数（用单调栈） * 步骤： * 示例： * 最终结果： * 单调栈一般模版 * 关键点 * 注意点 * 单调栈不同选型需求 * 优势 * 引入单调栈 * 本篇小结本篇摘要本篇围绕LeetCode 42“接雨水”展开，剖析四种解法：暴力法通过嵌套循环统计每柱接水量，易超时；动态规划预先记录左右最大值，将复杂度降至O(n)；双指针边遍历边更新极值，空间优化至O(1

OpenClaw Web Search 完全指南（2026年3月最新）

OpenClaw Web Search 完全指南（2026年3月最新）本文详细介绍 OpenClaw 内置 web_search 工具的 5 个官方搜索渠道，以及 Tavily 技能的使用方法。帮助你选择最适合的免费/付费方案。目录 * OpenClaw 搜索功能概述 * 5 个官方搜索渠道详解 * 1. Brave Search API * 2. Google Gemini * 3. Grok (xAI) * 4. Kimi (Moonshot) * 5. Perplexity * 免费额度对比表 * 推荐配置方案 * Tavily Web Search 技能 * 配置步骤详解 * 常见问题 OpenClaw 搜索功能概述 OpenClaw 提供两种搜索能力：

【机器人路径规划】基于四种最新算法（小龙虾优化算法COA、螳螂搜索算法MSA、红尾鹰算法RTH、霸王龙优化算法TROA）求解机器人路径规划研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页：Matlab科研工作室 🍊个人信条：格物致知,完整Matlab代码及仿真咨询内容私信。 🔥 内容介绍 1 概述机器人路径规划作为自主导航系统的核心环节，直接决定机器人任务执行的效率、安全性与稳定性，其核心目标是在复杂环境中为机器人规划出一条从起点到终点、满足无碰撞、路径最优等约束条件的可行路径。随着机器人应用场景从结构化工厂环境向非结构化动态场景（如灾害救援、物流仓储、无人机巡检）拓展，传统路径规划算法（如A*、Dijkstra算法）在处理高维空间、动态障碍物及多目标约束时，逐渐暴露计算复杂度高、实时性差、易陷入局部最优等缺陷。生物启发式算法凭借模拟自然生物群体行为的特性，在非线性优化问题中展现出更强的全局搜索能力与环境适应性，成为机器人路径规划领域的研究热点。本文聚焦四种最新生物启发式算法——小龙虾优化算法（COA）、螳螂搜索算法（MSA）、红尾鹰算法（RTH）及霸王龙优化算法（TROA），通过理论拆解、仿真实验与性能