无需人工标注,安卓智能体成功率达68%:AndroidGen-Llama-3-70B
导语
智谱 AI 开源的 AndroidGen-Llama-3-70B 模型实现重大突破,在安卓应用自动化任务中成功率达 68%,接近人类水平(80%),且无需人工标注交互数据,为移动智能体开发突破数据稀缺瓶颈提供新路径。
行业现状:移动 AI 的'数据困境'
当前移动智能体开发面临三大核心挑战:场景多样性要求模型具备跨应用泛化能力,复杂任务需多步骤精准规划,数据过滤与标注成本占开发总成本的 60% 以上。主流 AI 助手如 Siri、小爱同学仍停留在单轮指令响应阶段,面对'预约明天上午 9 点的医生并发送提醒给家人'这类跨应用任务时,成功率不足 30%。
传统方法依赖人工标注的交互轨迹数据,在面对安卓系统中 200+ 常用应用、10 万 + 可能操作组合时,数据采集效率与标注质量成为难以逾越的瓶颈。据公开报告,一个覆盖 10 个应用的基础测试集标注成本就超过 50 万元,这使得中小开发者难以涉足移动智能体领域。
产品亮点:四大模块解决数据稀缺难题
AndroidGen-Llama-3-70B 通过四大创新模块,彻底改变了移动智能体开发依赖人工标注数据的行业现状:
ExpSearch(经验搜索)
该模块利用 LLM 的上下文学习能力,通过检索并学习相似的已完成轨迹来迭代优化代理性能。系统会将任务执行轨迹保存在数据库中,新任务到来时通过 Contriever 模型检索最相似轨迹作为参考。每次任务完成后,StepCritic 模块会评估轨迹质量并更新数据库,实现代理的自我进化。
在实验中,启用 ExpSearch 模块使跨应用任务的泛化能力提升 28%,特别是在处理'从微信导出聊天内容到表格'这类非标准操作时表现突出。
ReflectPlan(反思规划)
在任务执行前生成初始计划,从第二步开始持续反思进度并动态调整策略。当遇到失败或进入循环状态时,代理能自动创建新计划,显著增强长期推理能力。实验数据显示,启用 ReflectPlan 后,复杂任务的规划准确率提升 40%。
典型案例:在'预约明天上午 9 点的医生并发送提醒给家人'任务中,系统会先规划'打开健康应用→搜索科室→选择医生→预约时间→切换到消息应用→选择联系人→发送信息'的完整流程,并在每个步骤验证执行结果。
AutoCheck(自动检查)
主动验证每个操作的有效性,包括元素 ID 存在性、操作类型匹配度等关键指标。该模块使操作错误导致的任务失败率降低 27%,尤其在 UI 元素识别易受干扰的场景中表现突出。
例如在处理'设置明天早上 7 点的闹钟'任务时,AutoCheck 会验证闹钟应用是否成功打开、时间选择器是否正确响应、重复选项是否符合预期等关键节点。
StepCritic(步骤评估)
基于 GPT-4o 构建的细粒度评估器,将任务分解为多个子目标并逐步骤打分。这种细粒度评估不仅为数据库更新提供精准依据,更最大化挖掘有限数据的学习价值,加速系统迭代优化。
AndroidGen 框架下的 Llama-3-70B 模型在安卓环境任务中的成功率达到 68%,远超 M3A(42%)和 SeeAct(38%)等现有方案,接近 80% 的人类水平基准。这一数据充分体现了 AndroidGen 在解决移动智能体数据稀缺问题上的突破性进展,为开发者提供了更高效的智能体构建工具。
应用场景:重新定义移动智能交互体验
自动化任务处理
用户通过自然语言指令即可完成'发送邮件给张经理并抄送给团队成员'、'设置明天早上 7 点的闹钟并备注带笔记本电脑'等复杂操作,平均任务耗时从手动操作的 4 分 20 秒缩短至 58 秒。
在企业场景测试中,员工使用 AndroidGen 处理日常办公任务的效率提升 2.3 倍,特别是在数据录入、会议安排、报告生成等重复性工作中节省大量时间。
跨应用操作
实现不同应用间的数据流转与协同,如'从日历导出明天的会议安排到 Excel 并发送给团队'、'将微信中的客户联系方式导入通讯录并设置提醒'等复杂流程。
在 AitW(Android in the Wild)真实设备评测中,跨应用任务成功率提升 40%,其中'社交媒体内容分享到办公文档'类任务的完成率从 32% 提升至 68%。
无障碍服务创新
为视障用户提供全语音操控的手机使用方案,通过智能代理自动完成屏幕内容识别、信息提取与操作执行。测试显示,视障用户完成'查看银行账单并记录支出'任务的时间从 22 分钟缩短至 5 分钟,操作效率提升 65%。
行业影响:开启移动智能体开发新纪元
AndroidGen-Llama-3-70B 的开源发布,有望重塑移动 AI 应用生态:

