Playwright携手MCP AI实现自动化浏览器操作（保姆级教程，国内模型搞定！！！）

优质文章学习记录

10 Apr 2026 — 5 min read

一、什么是 Playwright MCP 浏览器拓展？

它是连接 AI 大模型与真实浏览器环境的核心桥梁，解决了传统自动化工具需要频繁启动新浏览器的痛点。

✨ 核心作用

允许 AI “看见” 浏览器内容，并模拟人类行为（点击、输入、滚动），无需每次启动全新的空白浏览器窗口，大幅提升效率。

🎯 最大亮点

通过配套的 Chrome/Edge 拓展插件，AI 可以直接接管你当前已打开的网页，复用现有登录状态（Cookies、Session），无需重新登录即可操作 Gmail、Jira、企业后台等需要鉴权的网站，这是传统无头浏览器无法实现的关键优势。

🛠️ 二、核心功能与特性

功能点	核心能力
接管现有会话	安装插件后，AI 直接操作当前 Chrome/Edge 标签页，保留所有登录态与历史记录，无需重新初始化环境。
精准操作	支持点击（Click）、输入（Fill）、截图（Screenshot）、滚动（Scroll）、鼠标悬停（Hover）等全场景交互，覆盖日常浏览器操作。
智能感知	将网页结构转换为 AI 易读的 Accessibility Tree 格式，让 AI 精准理解页面布局与元素关系，避免定位错误。
双模运行	同时支持有头浏览器可视化操作（你可以实时看到 AI 行为）和无头浏览器后台自动化（适合批量任务），灵活适配不同场景。

🔌 三、运行原理

Playwright MCP 采用分层架构，确保 AI 与浏览器的稳定通信：

plaintext

[AI 模型 (Claude/Cursor)] <-- 指令交互 --> [MCP Client (宿主应用)] <-- 本地通信 --> [MCP Server (本地服务)] <--

💡 适用场景

AI 辅助办公：让 Claude/Cursor 直接操作已登录的企业后台、邮件系统，自动处理审批、发送邮件。
自动化测试：复用现有浏览器会话，无需重复登录，提升测试效率。
数据采集：在已登录状态下采集需要鉴权的页面数据，避免验证码与登录限制。

🛠️ Playwright MCP 安装与快速上手指南

（可直接复制粘贴操作，适配 Chrome/Edge 双浏览器）

📋 前提条件

已安装 Chrome/Edge 浏览器（推荐 Chrome 110+ / Edge 110+）
已安装支持 MCP 的 AI 客户端（如 Cursor / Claude Desktop / ChatGPT Desktop）
我这里找到一个国产工具，个人认为比较好用，本文使用该工具演示，并且免费
下载地址：https://cherrystudiochina.com/

🚀 第一步：安装浏览器插件

方式 1：商店一键安装（推荐）

Chrome 插件：Playwright MCP Extension（需要魔法，我这里直接提取出来压缩包了，有条件可以使用魔法，直接拓展商店搜索安装）

方式 2：手动安装（适用于无法访问商店的场景）

下载我的压缩文件，
打开 Chrome/Edge → 进入 chrome://extensions/
如果压缩包出来的拓展程序无法使用，建议从拓展商店下载拓展地址：https://chromewebstore.google.com/detail/jfeammnjpkecdekppnclgkkffahnhfhe?utm_source=item-share-cb
深入学习使用可访问项目github，地址：https://github.com/remorses/playwriter?tab=readme-ov-file
插件下载文件：通过网盘分享的文件：Playwright MCP 链接: https://pan.baidu.com/s/1OZuGEDlVvn2HbxC9U9l6Rw?pwd=yyds 提取码: yyds

重启浏览器，点击右上角MCP 拓展程序，如果发现以下特征，即成功，

10.即可通过对话来控制你的浏览器

返回首页，点击默认助手

8.找到MCP服务器，点击选择手动，然后点击Playwright 开启

9.返回首页，查看配置

点击开启

选择从JSON导入，然后导入以下数据,点击确定

{ "mcpServers": { "playwriter": { "command": "npx", "args": [ "-y", "playwriter@latest" ] } } }

将插件固定在状态栏里

5.打开MCP客户端工具（Cherry studio），上面已给出下载链接，点击右上角设置，找到MCP服务器，找到添加

开启「开发者模式」→ 点击「加载已解压的扩展程序」→ 选择载的插件源码文件夹（已准备好了）

前端打工人必看：Axios搞定Excel导出上传，拒绝加班还能准时干饭

前端打工人必看：Axios搞定Excel导出上传，拒绝加班还能准时干饭 * 前端打工人必看：Axios搞定Excel导出上传，拒绝加班还能准时干饭 * 这玩意儿到底是个啥 * 上传文件那点破事 * 基础版：单文件上传 * 进阶版：多文件上传 * 高阶版：带进度条的上传 * 防手贱：防抖处理 * 下载文件才是真·深水区 * 最简版：基础下载 * 文件名怎么搞？ * 封装一个通用的下载函数 * 带下载进度的大文件下载 * 咱得客观聊聊这方案 * 优点 * 缺点 * 真实项目里怎么落地 * 场景一：报表导出（异步生成） * 场景二：批量导入+实时预览 * 场景三：图片压缩上传 * 遇到报错别只会重启 * 下载下来是乱码或打不开 * 跨域问题 * 超时问题 * 几个让同事喊666的骚操作 * 1. 全局上传下载管理器 * 2. 利用拦截器统一处理 * 3.

BAAI/bge-m3环境部署教程：从零配置到WebUI运行完整步骤

BAAI/bge-m3环境部署教程：从零配置到WebUI运行完整步骤 1. 学习目标与前置准备本教程将带领您完成 BAAI/bge-m3 语义相似度分析引擎的完整部署流程，涵盖环境搭建、模型加载、服务启动及 WebUI 使用等关键环节。通过本文，您将能够： * 在本地或云服务器上成功部署 bge-m3 模型推理环境 * 理解基于 sentence-transformers 的文本向量化实现机制 * 启动并访问可视化 WebUI 界面进行语义相似度测试 * 验证 RAG 场景下的文本召回质量 1.1 前置知识要求为确保顺利跟随本教程操作，请确认已掌握以下基础知识： * 基础 Linux 命令行使用能力（文件操作、权限管理） * Python 编程基础（了解 pip 包管理工具） * 对 NLP 中“文本嵌入”和“余弦相似度”有基本理解

Qwen3-VL-WEBUI实战对比：不同分辨率图像识别精度测试

Qwen3-VL-WEBUI实战对比：不同分辨率图像识别精度测试 1. 引言随着多模态大模型的快速发展，视觉-语言理解能力已成为衡量AI系统智能水平的重要指标。阿里云推出的 Qwen3-VL 系列模型，作为迄今为止Qwen系列中最强大的视觉语言模型，在文本生成、视觉感知、空间推理和长上下文处理等方面实现了全面升级。本文聚焦于 Qwen3-VL-WEBUI 的实际应用表现，重点测试其内置模型 Qwen3-VL-4B-Instruct 在不同图像分辨率下的识别精度差异。通过构建标准化测试集，涵盖常见物体、文字OCR、复杂布局与细粒度特征场景，评估该模型在真实使用中的鲁棒性与适应性，为开发者和企业用户提供选型参考与优化建议。 2. 模型背景与技术特性 2.1 Qwen3-VL 核心能力概述 Qwen3-VL 是阿里云开源的多模态大模型，支持图文理解、视觉代理、代码生成、视频分析等多种任务。其核心优势体现在以下几个方面： * 更强的视觉编码能力：支持从图像/视频生成 Draw.io、HTML/CSS/JS，实现“看图建站”。 * 高级空间感知：可判断物体位置、

前端状态管理方案选型指南：从 Redux 到 Zustand 再到 Pinia

深度对比主流状态管理方案，帮你找到最适合项目的那把"钥匙" 📋 前言在前端开发中，状态管理一直是绕不开的核心话题。从早期的全局变量，到 Redux 的单向数据流，再到如今 Zustand、Pinia 等轻量级方案的崛起，状态管理工具经历了多次迭代。但问题来了：2026 年了，到底该选哪个？本文将从学习成本、性能表现、生态支持、适用场景四个维度，深度剖析当前主流状态管理方案，帮你做出最适合的选择。 🎯 一、主流状态管理方案概览方案框架体积学习曲线适用场景Redux ToolkitReact11KB+⭐⭐⭐大型复杂应用ZustandReact1.1KB⭐⭐中小型应用、快速开发Jotai / RecoilReact3-7KB⭐⭐⭐原子化状态管理PiniaVue1.5KB⭐⭐Vue3 官方推荐VuexVue2KB⭐⭐⭐Vue2 历史项目MobXReact/Vue16KB+⭐⭐响应式编程爱好者 🔴 二、Redux Toolkit：企业级应用的首选