项目背景:2025 年 12 月,字节跳动联合中兴发布了「豆包手机助手」,可自动操作手机完成复杂任务。但首批工程机一机难求,二手市场价格居高不下。
于是有了「肉包」 —— 一个完全开源、基于视觉语言模型(VLM)的 AI 手机自动化助手。
一、项目亮点
- 无需电脑:完全摆脱 ADB 数据线与 PC 端 Python 环境,安装 App 即可使用。
- 原生 Android 实现:基于 Kotlin 开发,截图、分析、决策、执行全部在手机本地完成。
- 多 Agent 协作机制:借鉴 Claude Code 的设计思想,采用 Tools / Skills 双层架构,实现任务规划与执行解耦。
- 高度可定制:支持通义千问、GPT-4V、Claude 以及本地 Ollama 等多种模型后端。
二、方案对比
| 特性 | 肉包(Roubao) | 豆包手机助手 | 其他开源方案 |
|---|---|---|---|
| 是否需要电脑 | ❌ 不需要 | ❌ 不需要 | ✅ 多数需要 |
| 是否依赖专用硬件 | ❌ 不需要 | ✅ 需要(3499+) | ❌ 不需要 |
| 实现语言 | ✅ Kotlin(原生) | ✅ 原生 | ❌ 多为 Python |
| 是否开源 | ✅ MIT | ❌ 闭源 | ✅ 开源 |
| 架构设计 | ✅ Tools / Skills 双层 | ❓ 未公开 | ❌ 通常无明确分层 |
| 自定义模型 | ✅ 支持 | ❌ 仅豆包模型 | ⚠️ 部分支持 |
三、整体技术架构
肉包的核心设计理念,是将复杂的 GUI 自动化过程拆解为两个正交维度:
- 原子能力(How):系统可以'做什么'
- 用户意图(What):用户'想要什么'
3.1 Tools 层:原子能力集合
Tools 层负责执行最底层、可复用的物理或系统操作,包括但不限于:
search_apps:智能搜索已安装应用(支持拼音与语义匹配)。deep_link:通过协议直接跳转到 App 内指定页面。shell / http:执行系统命令或调用外部 HTTP API。screenshot / tap / swipe:基础屏幕采集与触控操作能力。
这些工具本身不具备'目标感',只负责可靠执行。
3.2 Skills 层:用户意图封装
Skills 层面向最终用户,负责将自然语言意图映射为可执行策略,支持两种核心模式:
- Delegation(委托模式) 直接通过 DeepLink 调用本身具备 AI 能力的应用(如小美、即梦等),特点是速度快、路径短、成功率高。
- GUI 自动化模式 面向普通应用,采用'截图 → 分析 → 操作 → 再截图'的闭环,由 Agent 逐步完成任务。




