阿里开源 Mobile-Agent:AI 自动化操作手机与电脑
阿里巴巴通义实验室开源的 Mobile-Agent 是一款 GUI 自动化代理工具,支持手机、PC 及 Web 端的跨平台操作。其核心基于 GUI-Owl 多模态视觉语言模型,具备端到端设计、智能规划与反思能力。用户可通过自然语言指令完成复杂任务,如 APP 操作、PPT 编辑或网页搜索。该项目适用于自动化测试、用户行为模拟及日常任务自动化,代码已开源,支持本地部署。

阿里巴巴通义实验室开源的 Mobile-Agent 是一款 GUI 自动化代理工具,支持手机、PC 及 Web 端的跨平台操作。其核心基于 GUI-Owl 多模态视觉语言模型,具备端到端设计、智能规划与反思能力。用户可通过自然语言指令完成复杂任务,如 APP 操作、PPT 编辑或网页搜索。该项目适用于自动化测试、用户行为模拟及日常任务自动化,代码已开源,支持本地部署。

Mobile-Agent 是阿里巴巴通义实验室开源的 GUI 自动化代理工具家族。它像人类一样操作手机、电脑和网页,用户只需通过自然语言指令即可自动完成复杂任务。
Mobile-Agent 是一个'AI 助手',支持 Android、iOS、Windows、macOS、Linux 及 Web 端。例如输入'帮我在小红书搜索济南旅游攻略',它可自动打开 APP、搜索、排序并保存笔记。
支持手机端(Android/iOS)、PC 端(Windows/macOS/Linux)及 Web 端浏览器操作。
获得 CCL 最佳演示奖,论文被 NeurIPS、ICLR 接收。
Mobile-Agent-v3 核心基于 GUI-Owl 多模态视觉语言模型(7B/32B 版本)。 特点包括端到端设计、SOTA 性能、跨平台交互、多轮决策及灵活部署。 核心能力涵盖动态任务分解、进度管理、异常处理及跨应用任务。
# 1. 克隆项目
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
# 2. 进入 Mobile-Agent-v3 目录
cd Mobile-Agent-v3
# 3. 安装依赖
pip install -r requirements.txt
# 4. 配置 API 密钥
# 5. 连接设备(Android 开启 ADB 调试)
# 6. 运行示例
python run_api.py --instruction "你的指令"
后续将发布基于 Qwen-3-VL 的新版本,扩展更多平台支持,优化用户体验及应用场景。
项目地址:https://github.com/X-PLUG/MobileAgent 技术报告:https://arxiv.org/abs/2508.15144

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online