Mobile-Agent:跨平台 GUI 自动化代理工具解析
Mobile-Agent 是阿里巴巴通义实验室开源的 GUI 自动化代理工具家族。它允许 AI 像人类一样操作手机、电脑和网页,通过自然语言指令完成复杂的图形界面任务。
核心能力与架构
Mobile-Agent 的核心是基于 GUI-Owl 多模态视觉语言模型。该模型专为 GUI 自动化任务设计,支持 7B 和 32B 两种参数规模。
GUI-Owl 的关键特性
- 端到端设计:将感知、定位、推理、规划、执行统一在一个策略网络中。
- SOTA 性能:在 7B 参数规模下达到业界最佳效果。
- 跨平台交互:支持 Android、iOS、Windows、macOS、Linux 等多个平台。
- 多轮决策:具备显式中间推理能力,能处理复杂的多步骤任务。
- 灵活部署:可以在 Mobile-Agent-v3 中实例化为不同的专用代理。
Mobile-Agent-v3 在此基础上实现了动态任务分解、进度管理、异常处理以及跨应用任务切换。

技术演进历程
项目从 2024 年 1 月发布 v1 版本开始,持续迭代至 v3:
- Mobile-Agent-v1(ICLR 2024 Workshop):单代理多模态移动设备操作。
- Mobile-Agent-v2(NeurIPS 2024):引入多代理协作框架。
- Mobile-Agent-v3(最新):跨平台多模态 GUI 代理,基于全新的 GUI-Owl 模型。
此外,团队还发布了相关生态组件:
- UI-S1:通过半在线强化学习推进 GUI 自动化。
- GUI-Critic-R1:GUI 操作前的错误诊断方法。
- PC-Agent:专门针对 PC 操作的多代理框架。
- Mobile-Agent-E:支持自我进化的移动助手。
应用场景演示
PC 端操作
任务:创建一个新的空白 PPT,在第一张幻灯片中插入艺术字'阿里巴巴'。 Mobile-Agent-v3 能够自动打开 PowerPoint,创建新演示文稿,插入艺术字并设置文字内容,全程无需人工干预。
Web 端搜索
任务:在 Skyscanner 上搜索 9 月 18 日从北京到巴黎的航班,返程日期为 9 月 21 日。 Agent 会自动打开网站,填写出发地、目的地,选择日期并执行搜索。
手机端操作
任务:在小红书搜索济南旅游攻略,按收藏数排序,保存第一条笔记。 Agent 可自动打开 APP,执行搜索、排序及保存操作。
部署与使用
本地部署
如果你希望在本地设备上运行,可以参考以下步骤:
# 1. 克隆项目
git clone https://github.com/X-PLUG/MobileAgent.git
MobileAgent
Mobile-Agent-v3
pip install -r requirements.txt
python run_api.py --instruction


