无需人工标注，安卓智能体成功率达68%：AndroidGen-Llama-3-70B

智谱 AI 开源的 AndroidGen-Llama-3-70B 模型在安卓应用自动化任务中成功率达 68%，接近人类水平。该模型无需人工标注交互数据，通过 ExpSearch、ReflectPlan、AutoCheck、StepCritic 四大模块解决数据稀缺瓶颈。相比现有方案，其在跨应用任务泛化能力和规划准确率上显著提升，大幅降低开发成本与门槛，支持自动化任务处理、跨应用操作及无障碍服务创新，推动移动智能体从被动响应向主动服务进化。

星落发布于 2026/3/28更新于 2026/6/331 浏览

无需人工标注，安卓智能体成功率达68%：AndroidGen-Llama-3-70B

导语

智谱 AI 开源的 AndroidGen-Llama-3-70B 模型实现重大突破，在安卓应用自动化任务中成功率达 68%，接近人类水平（80%），且无需人工标注交互数据，为移动智能体开发突破数据稀缺瓶颈提供新路径。

行业现状：移动 AI 的'数据困境'

当前移动智能体开发面临三大核心挑战：场景多样性要求模型具备跨应用泛化能力，复杂任务需多步骤精准规划，数据过滤与标注成本占开发总成本的 60% 以上。主流 AI 助手如 Siri、小爱同学仍停留在单轮指令响应阶段，面对'预约明天上午 9 点的医生并发送提醒给家人'这类跨应用任务时，成功率不足 30%。

传统方法依赖人工标注的交互轨迹数据，在面对安卓系统中 200+ 常用应用、10 万 + 可能操作组合时，数据采集效率与标注质量成为难以逾越的瓶颈。据公开报告，一个覆盖 10 个应用的基础测试集标注成本就超过 50 万元，这使得中小开发者难以涉足移动智能体领域。

产品亮点：四大模块解决数据稀缺难题

AndroidGen-Llama-3-70B 通过四大创新模块，彻底改变了移动智能体开发依赖人工标注数据的行业现状：

ExpSearch（经验搜索）

该模块利用 LLM 的上下文学习能力，通过检索并学习相似的已完成轨迹来迭代优化代理性能。系统会将任务执行轨迹保存在数据库中，新任务到来时通过 Contriever 模型检索最相似轨迹作为参考。每次任务完成后，StepCritic 模块会评估轨迹质量并更新数据库，实现代理的自我进化。

在实验中，启用 ExpSearch 模块使跨应用任务的泛化能力提升 28%，特别是在处理'从微信导出聊天内容到表格'这类非标准操作时表现突出。

ReflectPlan（反思规划）

在任务执行前生成初始计划，从第二步开始持续反思进度并动态调整策略。当遇到失败或进入循环状态时，代理能自动创建新计划，显著增强长期推理能力。实验数据显示，启用 ReflectPlan 后，复杂任务的规划准确率提升 40%。

典型案例：在'预约明天上午 9 点的医生并发送提醒给家人'任务中，系统会先规划'打开健康应用→搜索科室→选择医生→预约时间→切换到消息应用→选择联系人→发送信息'的完整流程，并在每个步骤验证执行结果。

AutoCheck（自动检查）

主动验证每个操作的有效性，包括元素 ID 存在性、操作类型匹配度等关键指标。该模块使操作错误导致的任务失败率降低 27%，尤其在 UI 元素识别易受干扰的场景中表现突出。

例如在处理'设置明天早上 7 点的闹钟'任务时，AutoCheck 会验证闹钟应用是否成功打开、时间选择器是否正确响应、重复选项是否符合预期等关键节点。

StepCritic（步骤评估）

基于 GPT-4o 构建的细粒度评估器，将任务分解为多个子目标并逐步骤打分。这种细粒度评估不仅为数据库更新提供精准依据，更最大化挖掘有限数据的学习价值，加速系统迭代优化。

AndroidGen 框架下的 Llama-3-70B 模型在安卓环境任务中的成功率达到 68%，远超 M3A（42%）和 SeeAct（38%）等现有方案，接近 80% 的人类水平基准。这一数据充分体现了 AndroidGen 在解决移动智能体数据稀缺问题上的突破性进展，为开发者提供了更高效的智能体构建工具。

应用场景：重新定义移动智能交互体验

自动化任务处理

用户通过自然语言指令即可完成'发送邮件给张经理并抄送给团队成员'、'设置明天早上 7 点的闹钟并备注带笔记本电脑'等复杂操作，平均任务耗时从手动操作的 4 分 20 秒缩短至 58 秒。

在企业场景测试中，员工使用 AndroidGen 处理日常办公任务的效率提升 2.3 倍，特别是在数据录入、会议安排、报告生成等重复性工作中节省大量时间。

跨应用操作

实现不同应用间的数据流转与协同，如'从日历导出明天的会议安排到 Excel 并发送给团队'、'将微信中的客户联系方式导入通讯录并设置提醒'等复杂流程。

在 AitW（Android in the Wild）真实设备评测中，跨应用任务成功率提升 40%，其中'社交媒体内容分享到办公文档'类任务的完成率从 32% 提升至 68%。

无障碍服务创新

为视障用户提供全语音操控的手机使用方案，通过智能代理自动完成屏幕内容识别、信息提取与操作执行。测试显示，视障用户完成'查看银行账单并记录支出'任务的时间从 22 分钟缩短至 5 分钟，操作效率提升 65%。

行业影响：开启移动智能体开发新纪元

AndroidGen-Llama-3-70B 的开源发布，有望重塑移动 AI 应用生态：

无需人工标注，安卓智能体成功率达68%：AndroidGen-Llama-3-70B