肉包：一款无需电脑的开源 AI 手机自动化助手

肉包（Roubao）是一款基于视觉语言模型（VLM）的开源 AI 手机自动化助手，采用原生 Kotlin 开发，无需连接电脑或 ADB 数据线即可在本地完成复杂任务。其核心架构分为 Tools 层与 Skills 层，分别负责原子操作执行与用户意图映射，支持多 Agent 协作及多种模型后端。通过 Shizuku 获取系统权限，实现非 Root 环境下的屏幕采集、触控模拟及跨应用操作。项目提供 Material 3 界面，支持自然语言指令控制，适用于日常办公与自动化场景。

Pythonist发布于 2026/2/70 浏览

项目背景：2025 年 12 月，字节跳动联合中兴发布了「豆包手机助手」，可自动操作手机完成复杂任务。但首批工程机一机难求，二手市场价格居高不下。

于是有了「肉包」 —— 一个完全开源、基于视觉语言模型（VLM）的 AI 手机自动化助手。

一、项目亮点

无需电脑：完全摆脱 ADB 数据线与 PC 端 Python 环境，安装 App 即可使用。
原生 Android 实现：基于 Kotlin 开发，截图、分析、决策、执行全部在手机本地完成。
多 Agent 协作机制：借鉴 Claude Code 的设计思想，采用 Tools / Skills 双层架构，实现任务规划与执行解耦。
高度可定制：支持通义千问、GPT-4V、Claude 以及本地 Ollama 等多种模型后端。

二、方案对比

特性	肉包（Roubao）	豆包手机助手	其他开源方案
是否需要电脑	❌ 不需要	❌ 不需要	✅ 多数需要
是否依赖专用硬件	❌ 不需要	✅ 需要（3499+）	❌ 不需要
实现语言	✅ Kotlin（原生）	✅ 原生	❌ 多为 Python
是否开源	✅ MIT	❌ 闭源	✅ 开源
架构设计	✅ Tools / Skills 双层	❓ 未公开	❌ 通常无明确分层
自定义模型	✅ 支持	❌ 仅豆包模型	⚠️ 部分支持

三、整体技术架构

肉包的核心设计理念，是将复杂的 GUI 自动化过程拆解为两个正交维度：

原子能力（How）：系统可以'做什么'
用户意图（What）：用户'想要什么'

3.1 Tools 层：原子能力集合

Tools 层负责执行最底层、可复用的物理或系统操作，包括但不限于：

search_apps：智能搜索已安装应用（支持拼音与语义匹配）。
deep_link：通过协议直接跳转到 App 内指定页面。
shell / http：执行系统命令或调用外部 HTTP API。
screenshot / tap / swipe：基础屏幕采集与触控操作能力。

这些工具本身不具备'目标感'，只负责可靠执行。

3.2 Skills 层：用户意图封装

Skills 层面向最终用户，负责将自然语言意图映射为可执行策略，支持两种核心模式：

Delegation（委托模式） 直接通过 DeepLink 调用本身具备 AI 能力的应用（如小美、即梦等），特点是速度快、路径短、成功率高。
GUI 自动化模式 面向普通应用，采用'截图 → 分析 → 操作 → 再截图'的闭环，由 Agent 逐步完成任务。

肉包：一款无需电脑的开源 AI 手机自动化助手

一、项目亮点

二、方案对比

三、整体技术架构

3.1 Tools 层：原子能力集合

3.2 Skills 层：用户意图封装

四、界面与交互展示

更多推荐文章

相关免费在线工具

五、关键依赖：为什么需要 Shizuku？

六、快速上手

6.1 前置条件

6.2 使用示例

七、项目路线图

已完成（v1.x）

开发中（v2.0）

长期规划

八、开发者指南

肉包：一款无需电脑的开源 AI 手机自动化助手

一、项目亮点

二、方案对比

三、整体技术架构

3.1 Tools 层：原子能力集合

3.2 Skills 层：用户意图封装

四、界面与交互展示

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

五、关键依赖：为什么需要 Shizuku？

六、快速上手

6.1 前置条件

6.2 使用示例

七、项目路线图

已完成（v1.x）

开发中（v2.0）

长期规划

八、开发者指南