AI+playwright+robotframework实现AI大模型驱动的web UI自动化测试

优质文章学习记录

11 Apr 2026 — 7 min read

文章目录

前言
一、playwright与selenium 对比
二、AI-playwright MCP
三、Playwright封装设计建议
- robotframerwork-browser 介绍

前言

前些日子将团队内的UI自动化完成了重构，由之前使用的selenium的迁移到了新生的工具playwright。在AI大模型的加持下，脚本质量稳定和编写效率上得到了明显提升。刚刚发了一个关于AI 编写自动化接口测试的博客，看起来反响不错，所以又写了这篇文章与大家分享。本文从playwright与selenium 对比出发，尽量用简单语言来描述，一篇文章不太可能教会你如何去写，更多的是思路与设计的分享

一、playwright与selenium 对比

关于对比，之前有博主总结的蛮好，直接引用了 Playwright 与Selenium对比。我稍微总结一下，便于理解，从原理上对比

selenium 使用“代理”webdriver 协议来统一接口对接不同厂家的浏览器
playwright直接和各个浏览器原生底层调试协议来通信，比如CDP(Chrome Devtools Protocol)

从原理上对比不难看出，selenium其实是在众多浏览器中采用“套一层”去解决自动化问题的，那么浏览器很多原生的底层数据selenium根本无法实现，比如网络请求参数、控制台信息等等。而且执行速度上也天然的没有playwright快。在AI时代，个人感觉因为selenium底层原理，导致目前相关的AI应用难有明显的成果，之前我也搜索了很多，selenium作为老牌工具在AI上的火花好像还没有诞生。反观playwright，结合AI的应用有很多亮点之处，所以近期在团队内部已经将驱动UI的底层重构，切换为playwright。

二、AI-playwright MCP

那么如何让AI与web自动化有效的结合，并带来效率、准确度上的提升呢。其实我另一篇博客利用AI+ MCP让AI模型与业务数据完美结合，自动编写高质量的自动化测试脚本也提到过类似的解决方式，也就是利用MCP，至于什么是MCP本文不再赘述。让AI模型分析页面的dom元素。利用MCP来驱动浏览器，告诉AI模型记住页面交互的细节，它会抓取页面的情况并帮助你分析页面的元素结构和交互的过程。那么有了这些源数据以后，它会很好帮助你编写UI自动化测试，如果你之前有很好的代码结构它会让你在编写脚本的过程中减轻很多的工作量。

至于哪个模型能力最强等等话题。在现在各种LLM百花齐放，各路追赶的情况下。对于第一批梯队的大模型，我觉得对于普通人来说差异不大。当然还是有差距的，建议喜欢哪个，用哪个顺手就用哪个好了。

AI模型也会犯错，而且会犯很多错，还有可能在跑偏的路上一直带歪你，所以如果利用好AI也是门学问。目前AI发展的情况，个人建议记住一个原则一定是AI辅助，半自动档位配合你工作，不要偷懒不去reviewAI生成的代码，有错误必须反馈；积累好有效的prompt；在AI生成的代码毫无逻辑下，立即停止，手动coding教会它如何去写；在AI生成代码很复杂的情况下，手动拆分模式加入合理设计模型，这样会更高效的协助你coding；

demo 来演示一下
如何安装playwright MCP 请参考node 环境的MCP Server安装
其实我也调研过目前市面上一些比较火的AI测试工具如TestCraft、Testim.ai 、applitools 等等，封闭式的测试用例管理和编写方面，封装和封闭性太强了，而且收费，我觉得很难适合大多数业务的需求。下面使用一个demo来演示一下如何使用playwright MCP 。

OK 让我们试运行一下生成的脚本看看

完美运行！！！在实际业务中还是要修改的，demo演示的是AI 分析页面并输出脚本的能力，大家可以举一反三。

三、Playwright封装设计建议

分层设计思想的指导下，考虑到可维护性和可扩展性等，主要的封装思路如下，供参考：

playwright 提供了原生操作浏览器的能力，比如点击click、输入input等等。那么基于底层封装一个你们业务的playwright即 XxxPlayWright。
在XxxPlayWright 基础之上，将也代码组件化，因为每个公司的业务都不一样，大多数的UI控件其实都是DIY过的，所以基于XxxPlayWright基础上，可以将操作告警框、下拉框等组件的代码模块化，可以考虑使用Mixin 等结构型的设计模式。
基于模块组件化的代码，封装业务关键字层，提供业务的UI操作能力
case 上层只调用UI业务代码关键字。

robotframerwork-browser 介绍

博主使用的自动化测试框架是robotframework，所以针对RF来简单介绍一下相关的知识，如果使用pytest的，其实原理类似。
使用的自动化测试框架一直是robotframwork，所以我是基于robot官方的库再二次封装一下，简单介绍一下robotframework-browser的特性。如果你使用原生的playwright可以忽略这部分内容
Browser library powered by Playwright。关键点：new browser 、new page 等无需关心资源清理问题，RF框架可以自动清理，确保资源的隔离。自动关联已经存在的资源和自动启动需要的资源。
RF-browser 文档

安装
Only Python 3.9 or newer is supported. From Node side 18, 20 and 22 LTS versions are supported.

Install node.js e.g. from https://nodejs.org/en/download/
Update pip pip install -U pip to ensure latest version is used
Install robotframework-browser from the commandline: pip install robotframework-browser
Install the node dependencies: run rfbrowser init in your shell

if rfbrowser is not found, try python -m Browser.entry init
这里需要注意的是，playwright不像selenium那样需要单独安装驱动和驱动对应的浏览器，playwright提供了自动安装的方式。我这里使用了robot的playwright库，所以使用了rfbrowser init 进行安装，如果你使用原生playwright，它也提供了类似的能力。

AI 智能答题助手 (AI Study Copilot) —— 你的下一代学习辅助神器

⚡️ AI 智能答题助手 (AI Study Copilot) —— 你的下一代学习辅助神器一键抓取 · 深度解析 · 学习更轻松功能特性 • 安装指南 • 使用说明 • 赞助与支持 • 免责声明项目地址：点击访问插件官网：点击访问 📖 项目介绍 AI 智能答题助手 (AI Study Copilot) 是一款专为在线学习设计的浏览器扩展。V1.2 版本迎来重大升级，打破模型限制，不仅内置 DeepSeek 智能引擎，更开放支持 OpenAI 及本地大模型 (LM Studio)。不同于传统的题库匹配软件，本插件不依赖静态题库，而是通过实时 AI 分析，能够处理全新的题目、变种题以及复杂的阅读理解题。我们秉持“技术辅助学习”的理念，致力于将繁琐的资料检索过程自动化。 ✨ 功能特性

从零到一：Ubuntu上llama.cpp的编译艺术与性能调优实战

从零到一：Ubuntu上llama.cpp的编译艺术与性能调优实战在人工智能技术快速发展的今天，大型语言模型(LLM)已成为开发者工具箱中不可或缺的一部分。而llama.cpp作为一款高效、轻量级的LLM推理框架，因其出色的性能和跨平台支持，越来越受到开发者的青睐。本文将带您深入探索在Ubuntu环境下编译和优化llama.cpp的全过程，从基础环境搭建到高级性能调优，为您呈现一套完整的解决方案。 1. 环境准备与基础编译在开始编译llama.cpp之前，我们需要确保系统环境满足基本要求。Ubuntu 22.04 LTS是最推荐的系统版本，它提供了稳定的软件包支持和良好的兼容性。首先更新系统并安装必要的开发工具： sudo apt update && sudo apt upgrade -y sudo apt install -y build-essential cmake git curl libcurl4-openssl-dev 对于希望使用CUDA加速的用户，还需要安装NVIDIA驱动和CUDA工具包： sudo apt install

【AIGC前沿】MiniMax海螺AI视频——图片/文本生成高质量视频

目录 1.MiniMax海螺AI视频简介 2.使用教程 1.MiniMax海螺AI视频简介海螺视频，作为 MiniMax 旗下海螺 AI 平台精心打造的 AI 视频生成工具，致力于助力用户产出高品质视频内容。该工具依托 abab-video-1 模型，具备强大的文生视频功能。用户仅需输入关键词或简短语句，海螺视频就能据此创作出情节丰富的完整视频。此外，海螺视频运用 DiT 架构，能够精准模拟现实世界的物理规律，尤其在生成复杂场景与高动作场景时，展现出卓越的性能。 2.使用教程点击如下链接，进入蓝耘元生代智算云平台主页 https://cloud.lanyun.net/#/registerPage?promoterCode=11f606c51e 点击主页上方栏的“MaaS平台” 然后点击左侧栏的“视觉模型” 可以看到可以免费体验一次I2V-01图片生成视频点击如下红框处将图片上传例如输入如下的图片例如想让小狗动起来，可以在如下红框处输入相应的指令，然后点击立即生成

LLaMA-Factory评估指标实战：困惑度与BLEU分数深度解析

LLaMA-Factory评估指标实战：困惑度与BLEU分数深度解析还在为LLM微调后的模型质量评估发愁吗？🤔 作为AI开发者和研究者，我们常常面临这样的困境：训练损失下降明显，但实际生成效果却让人失望。今天，我将带你深度解析LLaMA-Factory中的两大核心评估指标——困惑度（PPL）与BLEU分数，让你从"盲调"走向"精调"！ 🎯 评估指标：模型优化的"导航仪" 在LLaMA-Factory微调框架中，评估指标就像GPS导航系统，实时告诉我们模型的学习状态和优化方向。困惑度衡量模型对文本序列的预测能力，数值越低越好；而BLEU分数则评估生成文本与参考文本的相似度，分数越高质量越优。评估指标应用场景速览场景类型推荐指标理想范围关键影响因素预训练任务困惑度<20数据质量、模型架构文本生成BLEU-420-40解码策略、训练数据量多轮对话综合评估多维度上下文理解能力 🚀 困惑度计算：从原理到实践困惑度是评估语言模型性能的重要指标，它反映了模型预测下一个词的不确定性程度。简单来说，困惑度越低，模型对文本的理解就越准确。困惑度计算技术内幕在