
Midscene 是一款革命性的、开源的 AI 驱动自动化操作工具(AI Operator),其核心理念是'让 AI 成为你的浏览器操作员'。它打破了传统自动化测试依赖复杂代码和固定选择器(如 XPath、CSS Selector)的模式,允许用户使用自然语言直接描述任务目标,由 AI 自主规划并执行界面操作。该工具主要面向 Web 端,同时也支持移动端(Android/iOS)的自动化场景,广泛应用于软件测试、RPA(机器人流程自动化)及日常办公提效。它由阿里巴巴国际数字商业集团(AIDC)的测试团队发起并维护,代码托管在 GitHub 上,遵循 MIT 许可证。这意味着大家可以免费将其用于个人学习、公司内部项目甚至商业产品中,无需支付授权费用。
核心依赖: 它本身是免费的,但运行时需要调用大模型(LLM)。默认情况下,它支持接入阿里云百炼(DashScope)、OpenAI 或其他兼容 OpenAI 协议的模型接口。注意:虽然工具免费,但调用大模型 API 可能会产生少量的 Token 费用(取决于选择的模型和用量),不过它也支持部署本地模型以实现完全零成本。
一、核心功能与特点
1. 自然语言驱动 (Natural Language Driven)
这是 Midscene 最显著的特征。用户无需学习复杂的自动化框架 API,只需用通俗的语言描述意图。
- 示例:用户输入'在 Google 搜索'Android Studio'并点击下载第一个结果',Midscene 会自动理解语义,定位搜索框、输入文本、点击搜索按钮、识别下载链接并执行点击。
- 优势:降低了自动化门槛,非技术人员(如产品经理、业务运营)也能编写自动化脚本。
2. 视觉驱动的元素定位 (Vision-Based Localization)
传统工具(如 Selenium、Playwright)依赖 DOM 结构和固定的选择器,一旦页面结构微调(如 class 名变更),脚本就会失效。
- Midscene 的机制:基于多模态大模型(如 Qwen-VL 等视觉语言模型),通过'看'屏幕截图来理解界面元素。它能像人类一样识别按钮、输入框、文本内容,即使页面布局发生变化,只要视觉特征未变,AI 仍能准确操作。
- 抗干扰性:对动态类名、混淆代码具有极强的鲁棒性。
3. 多平台支持
- Web 端:作为浏览器插件或 Node.js 库运行,控制 Chrome/Edge 等浏览器。
- 移动端:支持 Android 和 iOS 设备的自动化操作,原理同样是基于屏幕视觉分析。
4. 灵活的脚本格式
支持多种方式来定义任务:
- 自然语言直接交互:在插件对话框中输入指令。
- YAML 格式:适合编写结构化的测试用例,便于版本管理和协作。
- JavaScript SDK:可嵌入到现有的 Node.js 项目中,与传统代码逻辑结合。
5. 智能规划与反思 (Agentic Planning)
Midscene 不仅仅是一个执行器,它具备 Agent(智能体)特性。在执行复杂任务时,它会:
- 拆解步骤:将一个大目标拆解为多个子操作。
- 自我修正:如果某一步操作失败(如点击无反应),AI 会尝试重新分析页面或换一种方式操作,而不是直接报错停止。


