AI自动化测试（一）

文章目录

1. 背景
2. 相关资料
- 2.1 底层框架
- 2.2 各大厂商的应用
  - 各大厂AI自动化测试实践与技术方案汇总
  - 技术路线总结
3. 重难点
4. 总结与展望
- AI+UI自动化测试重难点与优化方案总览

1. 背景

在软件研发全生命周期中，自动化测试是保障产品质量、提升迭代效率的核心环节。随着微服务架构普及、业务场景复杂化、迭代周期缩短（如敏捷/DevOps模式），传统自动化测试方案逐渐暴露出难以逾越的痛点：

脚本维护成本高：Web UI元素动态变化（如弹窗、异步加载）、MCP（管理控制协议）命令参数迭代，导致脚本频繁失效，需投入大量人力维护；

对比维度	传统自动化测试方案	AI自动化测试平台
核心驱动	人工编写脚本+固定规则	AI大模型+视觉识别+动态适配
脚本维护	人工维护，成本高、响应慢	AI无需脚本
场景覆盖	依赖人工枚举，易遗漏边缘场景	AI基于业务文档生成用例，覆盖核心+边缘场景
跨场景适配	需手动编写适配逻辑	自动兼容多浏览器/分辨率、多MCP环境/版本
流程闭环	各环节割裂，需人工串联	用例生成→执行→结果分析→问题上报全自动化
技术门槛	需掌握脚本语言（Python/Java）、测试框架（Selenium/MCP SDK）	低代码/无代码，非技术人员也可操作

大厂	相关实践/项目/平台	技术方案核心特点
腾讯 (内部实践)	腾讯广告AIGC辅助WebUI测试	1. 模型：基于腾讯混元大模型进行SFT训练专家模型。
2. 感知：DOM树+视觉增强。通过Selenium提取DOM元素信息（文本、状态、层级），并在截图上对可交互元素进行红框编号，结合输入大模型。
3. 架构：采用多Agent架构（Decision, Reflection, Verification）。
4. 执行：生成的脚本通过Selenium执行。
阿里 (内部实践)	大模型AI助力UI自动化探索	1. 模型：采用纯视觉方案，核心使用Qwen2.5-VL系列模型（从7B到72B）。
2. 感知：直接输入页面截图和自然语言描述，由模型理解并输出操作坐标。
3. 架构：采用ReAct范式，模型作为'大脑'规划动作，Playwright作为'肢体'执行。
4. 执行：底层依赖Playwright。具备完善的平台化能力（调试、调度、报告）。
美团 (开源项目)	AUITestAgent	1. 模型：使用Qwen-VL等视觉语言模型。
2. 感知：视觉+控件树（Android）。通过目标检测模型标注页面元素，结合OCR和控件树信息增强感知。
3. 架构：采用Agent架构完成从自动化交互到检查的整个过程。
4. 执行：主要针对移动端(APP)UI自动化。
字节跳动 (内部实践)	内部AI测试平台	1. 模型：广泛应用内部LLM（如云雀模型）及GPT系列。
2. 感知：方案多样，包括视觉、DOM、多模态结合。强调BDD（行为驱动开发）自然语言生成用例。
3. 架构：平台化整合，与CI/CD深度集成。在测试数据生成、代码生成、测试脚本生成等方面有实践。
4. 执行：根据场景选用Selenium、Playwright、Appium等。
百度 (内部实践+开源)	内部AI测试平台 + Apollo智能测试	1. 模型：依托文心大模型（ERNIE）。
2. 感知：在Web和App测试中，探索视觉理解和DOM分析结合。在智能驾驶Apollo平台中，大量使用AI进行仿真场景生成和自动化测试。
3. 架构：注重测试用例的智能生成与缺陷预测。
4. 执行：集成多种测试框架。
华为 (内部实践+云服务)	内部MateGPT应用 + 华为云测试服务	1. 模型：使用盘古大模型及内部AI能力。
2. 感知：在终端（手机）APP测试中，采用视觉方案进行UI自动化探索。同时，将AI能力融入华为云的测试平台服务中。
3. 架构：强调端云协同，利用云上AI能力赋能终端测试。
4. 执行：覆盖Web、移动端等多平台。

大厂

相关实践/项目/平台

技术方案核心特点

腾讯 (内部实践)

腾讯广告AIGC辅助WebUI测试

1. 模型：基于腾讯混元大模型进行SFT训练专家模型。

2. 感知：DOM树+视觉增强。通过Selenium提取DOM元素信息（文本、状态、层级），并在截图上对可交互元素进行红框编号，结合输入大模型。

3. 架构：采用多Agent架构（Decision, Reflection, Verification）。

4. 执行：生成的脚本通过Selenium执行。

阿里 (内部实践)

大模型AI助力UI自动化探索

1. 模型：采用纯视觉方案，核心使用Qwen2.5-VL系列模型（从7B到72B）。

2. 感知：直接输入页面截图和自然语言描述，由模型理解并输出操作坐标。

3. 架构：采用ReAct范式，模型作为'大脑'规划动作，Playwright作为'肢体'执行。

4. 执行：底层依赖Playwright。具备完善的平台化能力（调试、调度、报告）。

美团 (开源项目)

AUITestAgent

1. 模型：使用Qwen-VL等视觉语言模型。

2. 感知：视觉+控件树（Android）。通过目标检测模型标注页面元素，结合OCR和控件树信息增强感知。

3. 架构：采用Agent架构完成从自动化交互到检查的整个过程。

4. 执行：主要针对移动端(APP)UI自动化。

字节跳动 (内部实践)

内部AI测试平台

1. 模型：广泛应用内部LLM（如云雀模型）及GPT系列。

2. 感知：方案多样，包括视觉、DOM、多模态结合。强调BDD（行为驱动开发） 自然语言生成用例。

3. 架构：平台化整合，与CI/CD深度集成。在测试数据生成、代码生成、测试脚本生成等方面有实践。

4. 执行：根据场景选用Selenium、Playwright、Appium等。

百度 (内部实践+开源)

内部AI测试平台 + Apollo智能测试

1. 模型：依托文心大模型（ERNIE）。

2. 感知：在Web和App测试中，探索视觉理解和DOM分析结合。在智能驾驶Apollo平台中，大量使用AI进行仿真场景生成和自动化测试。

3. 架构：注重测试用例的智能生成与缺陷预测。

4. 执行：集成多种测试框架。

华为 (内部实践+云服务)

内部MateGPT应用 + 华为云测试服务

1. 模型：使用盘古大模型及内部AI能力。

2. 感知：在终端（手机）APP测试中，采用视觉方案进行UI自动化探索。同时，将AI能力融入华为云的测试平台服务中。

3. 架构：强调端云协同，利用云上AI能力赋能终端测试。

4. 执行：覆盖Web、移动端等多平台。

重难点类别	核心问题	优化方向
页面理解困难	纯视觉方案：小图标识别难、元素遮挡、颜色文字识别不准
纯DOM方案：状态感知缺失、图标丢失
混合方案：信息冲突协调难	多模态动态权重、专项检测模型、组件特征库、多角度截图策略
规划能力不足	用户指令歧义（过简/冗余）
复杂任务拆解困难
页面状态依赖管理复杂	结构化指令模板、RAG增强规划、分层Agent架构、业务规则引擎集成
断言机制不完善	自然语言断言模糊
页面信息提取有边界
实时性元素捕获困难	多维度断言映射、智能DIFF机制、混合断言策略、实时监控集成
成本效率瓶颈	模型调用频繁成本高
执行链路长延迟大
调试定位根因困难	模型响应缓存、大小模型协同、并行执行优化、可观测体系构建
场景适配挑战	企业定制组件识别难
测试数据构造复杂
非标交互支持不足	领域知识注入、插件化扩展、数据工厂集成、低代码配置工具

AI自动化测试（一）

文章目录

1. 背景

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 相关资料

2.1 底层框架

1. Playwright (Web UI自动化核心引擎)

2. Chrome-devtools (Chrome开发者工具)

3. Midscene (AI驱动的UI自动化工具)

4. stagehand (AI浏览器自动化SDK)

5. skyvern (AI浏览器自动化工具)

6. browser-use (AI驱动的浏览器自动化工具)

2.2 各大厂商的应用

各大厂AI自动化测试实践与技术方案汇总

技术路线总结

3. 重难点

3.1、页面理解困难的重难点与优化方案

（一）纯视觉方案的局限性

（二）纯DOM方案的缺陷

（三）DOM+视觉融合方案的挑战

（四）优化实施方案

3.2、规划能力的重难点与优化方案

（一）用户指令理解歧义

（二）复杂任务拆解困难

（三）优化实施方案

3.3、断言机制的重难点与优化方案

（一）自然语言断言模糊

（二）页面信息提取困难

（三）优化实施方案

3.4、成本与效率的重难点与优化方案

（一）资源成本过高

（二）执行效率低下

（三）调试效率低下

（四）优化实施方案

3.5、场景适配的重难点与优化方案

（一）边缘场景适配困难

（二）测试数据构造复杂

（三）优化实施方案

4. 总结与展望

AI+UI自动化测试重难点与优化方案总览

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具