AndroidGen-Llama-3-70B：零标注自主操控安卓应用的大模型实践

智谱 AI 开源的 AndroidGen-Llama-3-70B 模型，最近引起了不小的关注。它最大的亮点在于首次实现了大语言模型在安卓系统全场景下的自主任务执行，而且不需要人工标注交互数据就能搞定消息、时钟、邮件等应用的操控。这对移动智能体开发来说，算是突破了数据稀缺的瓶颈。

做移动智能体（Agent）的朋友应该都懂，数据是个大问题。现在的场景太复杂了，模型得跨应用泛化，还得能规划多步骤任务。传统方法依赖人工标注交互轨迹，但在安卓这 200+ 常用应用、10 万 + 操作组合面前，采集和标注的成本太高了，往往占了开发总成本的 60% 以上。

虽然 2025 年被预测为 AI Agent 的爆发期，端侧 AI 也在下沉，但如果没有好的数据方案，落地还是难。

AndroidGen-Llama-3-70B 基于 Llama-3-70B 构建，核心是独创的'零标注交互学习'架构。它通过四个模块配合，让模型自己学会怎么操作手机：

ExpSearch（经验搜索）：遇到新任务时，它会去检索数据库里类似的轨迹。用 Contriever 模型编码指令，算相似度，挑出最像的例子给模型参考。这样简单任务和复杂任务之间的泛化能力就上去了。
ReflectPlan（反思规划）：模型得知道自己在哪一步。它能自我评估进度，根据环境更新计划。如果卡住了或者进循环了，它会自动修改或创建新计划。这增强了长期推理能力。
AutoCheck（自动检查）：每一步操作都得验证。比如元素 ID 存不存在、类型对不对、滚动有没有完成。主动检查能降低因误操作导致任务失败的风险。
StepCritic（步骤评估）：把大任务拆成小目标，GPT-4o 负责分解并逐个评估轨迹。这在有限上下文长度下提高了信息密度，方便模型优化。

性能方面，AndroidGen+GPT-4o 组合平均得分 46.8，比 M3A、SeeAct 这些现有方案高不少，接近人类水平的 80%。这说明框架在解决数据问题上确实有效。

这模型不只是跑分好看，应用场景挺实在的：

自动化任务处理：自然语言指令就能发邮件、设提醒。比如你说'明天早上 8 点提醒我开会'，它直接打开时钟设闹钟。测试显示耗时从手动 4 分 20 秒缩到 58 秒。
跨应用操作：能把日历里的会议导出到 Excel 再发给团队。这需要理解多个应用的界面和数据格式，企业测试效率提升了 2.3 倍。
无障碍服务：视障用户可以用语音操控手机，模型自动识别屏幕内容并执行，操作效率提升 65%。

想试试手的话，可以直接拉取代码配置环境。注意这里需要按照 README 文档来安装依赖。

git clone https://github.com/zai-org/androidgen-llama-3-70b
cd androidgen-llama-3-70b
# 后续请参照项目 README 配置环境和依赖

AndroidGen-Llama-3-70B 的开源，意味着移动智能体开发进入了'数据高效'时代。它证明了大参数模型在复杂场景下也能精准操作，还给出了从数据生成到训练的全流程工具链。

未来一两年，移动应用集成智能体接口可能会成为常态，人机交互从'手动'转向'自然语言指令'。对于开发者来说，跟进这类技术，无论是做测试、智能家居还是数字助手，都是提升竞争力的关键。

更多推荐文章