Midscene.js 深度解析：基于多模态大模型的 Web 自动化与测试

Midscene.js 深度解析：基于多模态大模型的 Web 自动化与测试 | 极客日志

// 传统 Playwright 脚本
await page.locator('#kw').fill('Midscene');
await page.locator('#su').click();

// Midscene.js 脚本
await agent.aiAction('帮我在搜索框中输入"Midscene"，然后点击"百度一下"');

集成模式	核心逻辑	适用场景	优势
三方库集成（Agent 模式）	将 Midscene.js 作为独立库引入现有 Playwright 脚本，通过 `PlaywrightAgent` 实例调用智能接口	已有自动化项目的智能化改造、复杂定制化场景（如结合业务逻辑判断）、快速功能验证	自由度高，可与现有代码无缝衔接，无需修改项目架构
框架插件集成（Test 模式）	将 Midscene.js 作为 Playwright Test 框架的插件，通过配置文件注入全局能力，脚本中直接使用 `aiInput`/`aiTap` 等封装好的接口	全新自动化测试项目、基于 Playwright Test 的标准化测试流程、需要生成详细执行报告的场景	集成度高，提供统一的测试规范和报告能力，团队协作更高效

# 安装核心依赖，--save-dev 表示仅用于开发环境
pnpm add @midscene/web playwright @playwright/test tsx --save-dev

# 初始化 Playwright，自动下载 Chrome、Firefox、Safari 驱动
npx playwright install

# 模型接口地址（若使用 OpenAI 官方 API，此处为 https://api.openai.com/v1）
OPENAI_BASE_URL="http://192.168.1.100:8000/v1"
# 模型 API 密钥（本地部署的模型可自定义，官方 API 需填写真实密钥）
OPENAI_API_KEY="sk-your-api-key-here"
# 使用的模型名称（需与部署的模型名称一致）
MIDSCENE_MODEL_NAME="Qwen2.5-VL-72B"
# 启用 Qwen-VL 模型的专属适配（非 Qwen 系列可删除此配置）
MIDSCENE_USE_QWEN_VL=1

curl -X POST ${OPENAI_BASE_URL}/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${OPENAI_API_KEY}" \
-d '{ "model": "'"${MIDSCENE_MODEL_NAME}"'", "messages":[{"role":"user", "content":"描述一下这张图片的内容", "image_url":{"url":"data:image/png;base64,..."}}]}'

midscene-web-demo/ # 项目根目录
├── .env # 模型配置文件
├── package.json # 依赖配置
├── playwright.config.ts # Playwright 框架配置（Test 模式需用）
├── scripts/ # 自动化脚本目录
│   ├── agent-demo.ts # Agent 模式示例脚本
│   └── test-demo.spec.ts # Test 模式示例脚本（需.spec.ts 后缀）
├── midscene_run/ # Midscene 自动生成的目录
│   └── report/ # 可视化报告存储路径
└── node_modules/ # 依赖包目录

// 导入 Playwright 的 Chrome 浏览器驱动
import { chromium } from 'playwright';
// 导入 Midscene 的 PlaywrightAgent 类
import { PlaywrightAgent } from '@midscene/web/playwright';
// 加载.env 配置文件
import 'dotenv/config';

// 定义睡眠函数，用于等待页面加载（可选，便于观察过程）
const sleep = (ms: number) => new Promise(resolve => setTimeout(resolve, ms));

// 主执行函数
async function runAgentDemo() {
    // 1. 启动 Chrome 浏览器（此处指定使用 Edge 浏览器渠道，也可改为'chrome'）
    const browser = await chromium.launch({
        channel: 'msedge', // 浏览器渠道：msedge/chrome/firefox/safari
        headless: false, // 关闭无头模式（true 则不显示浏览器窗口）
        args: ['--no-sandbox', '--disable-setuid-sandbox'] // 解决 Linux 环境下的权限问题
    });

    // 2. 创建新的页面实例
    const page = await browser.newPage();

    // 设置页面视口大小（建议固定，避免不同分辨率影响视觉定位）
    await page.setViewportSize({ width: 1280, height: 768 });

    try {
        // 3. 导航到百度首页
        await page.goto('https://www.baidu.com');

        // 等待 5 秒，便于观察页面加载（实际项目可删除）
        await sleep(5000);

        // 4. 初始化 Midscene Agent，传入页面实例
        const agent = new PlaywrightAgent(page);

        // 5. 通过自然语言执行操作：输入关键词并搜索
        console.log('开始执行搜索操作...');
        const result = await agent.aiAction('帮我在页面顶部的搜索框中输入"Midscene.js 字节开源"，然后点击右侧的"百度一下"按钮');

        // 6. 验证操作结果（此处通过判断页面标题是否包含关键词）
        const pageTitle = await page.title();
        if (pageTitle.includes('Midscene.js')) {
            console.log('操作成功！搜索结果页面标题：', pageTitle);
        } else {
            console.warn('操作可能失败，页面标题：', pageTitle);
        }

        // 等待 10 秒，观察搜索结果（实际项目可删除）
        await sleep(10000);
    } catch (error) {
        console.error('执行过程中出现错误：', error);
    } finally {
        // 7. 关闭浏览器（无论成功与否，确保资源释放）
        await browser.close();
        console.log('浏览器已关闭');
    }
}

// 执行脚本
runAgentDemo();

npx tsx scripts/agent-demo.ts

import { PlaywrightTestConfig } from '@playwright/test';

const config: PlaywrightTestConfig = {
    // 测试脚本目录（需与实际脚本路径一致）
    testDir: './scripts',
    // 全局测试超时时间（防止模型处理过慢导致脚本超时）
    timeout: 120000, // 120 秒
    // 报告配置：同时生成 Playwright 默认报告和 Midscene 可视化报告
    reporter: [
        ['list'], // Playwright 默认的列表式报告（控制台输出）
        ['@midscene/web/playwright-reporter', {
            type: 'merged' // 报告类型：merged（所有用例合并为一个报告）/ separate（每个用例一个报告）
        }]
    ],
    // 断言超时时间
    expect: {
        timeout: 20000 // 20 秒
    },
    // 全局浏览器配置
    use: {
        headless: false, // 关闭无头模式，便于观察测试过程
        viewport: { width: 1280, height: 768 }, // 固定视口大小
        ignoreHTTPSErrors: true, // 忽略 HTTPS 证书错误（部分测试环境可能需要）
        actionTimeout: 30000, // 单个操作（如点击、输入）的超时时间（30 秒）
        navigationTimeout: 60000, // 页面导航超时时间（60 秒）
        trace: 'retain-on-failure' // 测试失败时保留追踪日志，便于排查问题
    },
    // 测试项目配置（可配置多个浏览器渠道）
    projects: [
        { name: 'Chrome 测试', use: { channel: 'chrome' } },
        { name: 'Edge 测试', use: { channel: 'msedge' } }
    ]
};

export default config;

// scripts/fixture.ts
import { test as baseTest } from '@playwright/test';
import { MidsceneFixtures } from '@midscene/web/playwright-test';

// 扩展 Playwright Test 的测试夹具，注入 Midscene 的智能工具
export const test = baseTest.extend<MidsceneFixtures>({
    ...MidsceneFixtures
});

// 导出 expect 用于断言
export { expect } from '@playwright/test';

// 导入扩展后的 test 和 expect
import { test, expect } from './fixture';
// 加载.env 配置
import 'dotenv/config';

// 定义测试用例：京东搜索笔记本电脑并筛选销量最高
test('京东商品搜索与销量筛选测试', async ({
    page, // Playwright 页面实例
    aiInput, // Midscene 封装：输入操作
    aiTap, // Midscene 封装：点击操作
    aiScroll, // Midscene 封装：滚动操作
    aiWaitFor, // Midscene 封装：等待操作
    aiQuery, // Midscene 封装：数据提取操作
    aiAssert // Midscene 封装：断言操作
}) => {
    // 步骤 1：导航到京东首页
    await page.goto('https://www.jd.com');
    // 等待页面加载完成（直到网络空闲）
    await page.waitForLoadState('networkidle');
    console.log('已导航到京东首页');

    // 步骤 2：在顶部搜索框输入'笔记本电脑'
    await aiInput('笔记本电脑', '页面顶部中央的搜索框');
    console.log('已输入搜索关键词');

    // 步骤 3：点击搜索按钮
    await aiTap('搜索框右侧的红色'搜索'按钮');
    console.log('已点击搜索按钮，等待结果加载');

    // 步骤 4：等待搜索结果页面加载（直到出现'销量'筛选选项）
    await aiWaitFor('页面中出现'销量'筛选选项', { timeoutMs: 30000 });
    console.log('搜索结果页面已加载');

    // 步骤 5：点击'销量'筛选，按销量从高到低排序
    await aiTap('筛选栏中的'销量'选项');
    // 等待排序完成（直到页面商品列表更新）
    await aiWaitFor('商品列表按销量重新排序', { timeoutMs: 20000 });
    console.log('已按销量筛选商品');

    // 步骤 6：滚动到页面底部，加载更多商品
    await aiScroll({
        direction: 'down', // 滚动方向：down（向下）/ up（向上）
        scrollType: 'untilBottom' // 滚动方式：untilBottom（滚到底部）/ byDistance（按距离滚动）
    });
    console.log('已滚动到页面底部');

    // 步骤 7：提取前 5 个商品的名称和价格（通过 aiQuery 从页面中提取结构化数据）
    const top5Products = await aiQuery<Array<{ name: string; price: string }>>('提取当前页面中前 5 个商品的名称和价格，返回格式为 [{name:"商品名称", price:"商品价格"}, ...]，价格需包含'¥'符号');
    console.log('前 5 个销量最高的商品：', JSON.stringify(top5Products, null, 2));

    // 步骤 8：断言验证（双重断言：Midscene 的 aiAssert + Playwright 的 expect）
    // 8.1 使用 aiAssert 验证页面无弹窗
    await aiAssert('当前页面没有任何弹窗、广告或登录提示框遮挡商品列表');

    // 8.2 使用 expect 断言商品列表非空且价格格式正确
    expect(top5Products).not.toBeNull();
    expect(top5Products?.length).toBeGreaterThan(0);
    top5Products?.forEach(product => {
        expect(product.name).not.toBeEmpty();
        expect(product.price).toMatch(/^¥\d+(\.\d+)?$/); // 验证价格格式为'¥xx.xx'
    });
    console.log('所有断言验证通过');
});

npx playwright test

// 拆分前（易出错）
await agent.aiAction('点击右上角登录按钮，输入账号 admin 和密码 123456，点击登录后进入个人中心');

// 拆分后（更稳定）
await aiTap('页面右上角的'登录'按钮'); // 步骤 1：打开登录弹窗
await aiInput('admin', '登录弹窗中的账号输入框'); // 步骤 2：输入账号
await aiInput('123456', '账号输入框下方的密码输入框'); // 步骤 3：输入密码
await aiTap('登录弹窗底部的'登录'按钮'); // 步骤 4：提交登录
await aiWaitFor('页面跳转至个人中心'); // 步骤 5：等待页面切换

// 1. 使用 Midscene 完成搜索操作
await agent.aiAction('在百度搜索'Midscene.js'');

// 2. 使用 Playwright 原生接口监听搜索接口请求，获取返回数据
let searchResponse: any = null;
page.on('response', (response) => {
    if (response.url().includes('https://www.baidu.com/s')) {
        searchResponse = response.json(); // 保存搜索接口返回的 JSON 数据
    }
});

// 3. 等待接口返回后，使用 Playwright 的 expect 断言验证结果数量
await page.waitForResponse(response => response.url().includes('https://www.baidu.com/s'));
expect(searchResponse?.data?.length).toBeGreaterThan(10); // 断言搜索结果数量大于 10

[
    {
        "controlName": "风险评估弹窗确认按钮",
        "description": "金融系统风险评估弹窗底部的确认按钮，红色背景，白色文字，位于弹窗右下角，文字内容为'确认评估'",
        "scene": "风险评估页面",
        "action": "点击后提交风险评估结果，关闭弹窗"
    },
    {
        "controlName": "优惠券选择器",
        "description": "电商结算页面的优惠券下拉框，灰色边框，内部显示当前可用优惠券金额（如'¥10'），位于'实付金额'上方",
        "scene": "结算页面",
        "action": "点击后展开优惠券列表，可选择使用的优惠券"
    }
]

const agent = new PlaywrightAgent(page, {
    knowledgeBase: require('../knowledge/business-controls.json') // 加载业务知识库
});

// 模型会结合知识库信息定位自定义控件
await aiTap('点击风险评估弹窗确认按钮');
await aiTap('点击优惠券选择器');

// 等待商品列表加载，直到显示至少 10 个商品
await aiWaitFor('页面中的商品列表显示至少 10 个商品卡片', { timeoutMs: 30000 });

// 等待用户信息接口返回，直到页面显示用户名'张三'
await aiWaitFor('页面顶部导航栏显示用户名'张三'', { timeoutMs: 20000 });

// 等待广告弹窗关闭，直到弹窗消失
await aiWaitFor('页面中的广告弹窗完全消失', { timeoutMs: 15000 });

Midscene.js 深度解析：基于多模态大模型的 Web 自动化与测试

Midscene.js 深度解析：基于多模态大模型的 Web 自动化与测试

一、Midscene.js 的技术定位与核心优势

1.1 多模态驱动：视觉与语言的双重智能

1.2 灵活的集成模式：适配不同开发与测试场景

1.3 全流程可视化报告：自动化过程可追溯、可分析

1.4 跨场景支持：从桌面浏览器到移动设备

二、Midscene.js 环境搭建：从依赖安装到模型配置

2.1 基础依赖安装

2.2 多模态模型配置（关键步骤）

步骤 1：创建.env 配置文件

步骤 2：验证模型可用性

2.3 项目目录结构规划

三、Midscene.js 实战案例：两种集成模式的完整实现

3.1 Agent 模式：轻量级集成，快速实现智能操作

步骤 1：编写 Agent 模式脚本（agent-demo.ts）

步骤 2：执行脚本并查看结果

3.2 Test 模式：标准化测试，生成可视化报告

步骤 1：配置 Playwright Test（playwright.config.ts）

步骤 2：编写 Test 模式脚本（test-demo.spec.ts）

步骤 3：执行测试并查看报告

四、Midscene.js 进阶技巧：提升自动化精度与扩展性

4.1 优化自然语言 prompt：提升视觉定位准确性

原则 1：增加'视觉特征'描述

原则 2：明确'相对位置'

原则 3：拆分复杂操作

4.2 结合 Playwright 原生接口：弥补多模态模型的不足

场景：获取接口返回数据并验证

4.3 外挂业务知识库：让模型理解特定领域控件

知识库配置步骤：

4.4 处理动态页面与加载状态：减少超时与失败

常见动态场景的 aiWaitFor 用法：

五、Midscene.js 的应用场景与未来展望

5.1 核心应用场景

1. 前端自动化测试

2. 数据采集与分析

3. 自动化办公与 RPA

4. 无障碍辅助工具

5.2 未来展望

六、总结：Midscene.js 重构 Web 自动化的核心价值

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

常见动态场景的 `aiWaitFor` 用法：