无需人工标注,安卓智能体成功率达68%:AndroidGen-Llama-3-70B
导语
智谱 AI 开源的 AndroidGen-Llama-3-70B 模型实现重大突破,在安卓应用自动化任务中成功率达 68%,接近人类水平(80%),且无需人工标注交互数据,为移动智能体开发突破数据稀缺瓶颈提供新路径。
智谱 AI 开源的 AndroidGen-Llama-3-70B 模型在安卓应用自动化任务中成功率达 68%,接近人类水平。该模型无需人工标注交互数据,通过 ExpSearch、ReflectPlan、AutoCheck、StepCritic 四大模块解决数据稀缺瓶颈。相比现有方案,其在跨应用任务泛化能力和规划准确率上显著提升,大幅降低开发成本与门槛,支持自动化任务处理、跨应用操作及无障碍服务创新,推动移动智能体从被动响应向主动服务进化。
智谱 AI 开源的 AndroidGen-Llama-3-70B 模型实现重大突破,在安卓应用自动化任务中成功率达 68%,接近人类水平(80%),且无需人工标注交互数据,为移动智能体开发突破数据稀缺瓶颈提供新路径。
当前移动智能体开发面临三大核心挑战:场景多样性要求模型具备跨应用泛化能力,复杂任务需多步骤精准规划,数据过滤与标注成本占开发总成本的 60% 以上。主流 AI 助手如 Siri、小爱同学仍停留在单轮指令响应阶段,面对'预约明天上午 9 点的医生并发送提醒给家人'这类跨应用任务时,成功率不足 30%。
传统方法依赖人工标注的交互轨迹数据,在面对安卓系统中 200+ 常用应用、10 万 + 可能操作组合时,数据采集效率与标注质量成为难以逾越的瓶颈。据公开报告,一个覆盖 10 个应用的基础测试集标注成本就超过 50 万元,这使得中小开发者难以涉足移动智能体领域。
AndroidGen-Llama-3-70B 通过四大创新模块,彻底改变了移动智能体开发依赖人工标注数据的行业现状:
该模块利用 LLM 的上下文学习能力,通过检索并学习相似的已完成轨迹来迭代优化代理性能。系统会将任务执行轨迹保存在数据库中,新任务到来时通过 Contriever 模型检索最相似轨迹作为参考。每次任务完成后,StepCritic 模块会评估轨迹质量并更新数据库,实现代理的自我进化。
在实验中,启用 ExpSearch 模块使跨应用任务的泛化能力提升 28%,特别是在处理'从微信导出聊天内容到表格'这类非标准操作时表现突出。
在任务执行前生成初始计划,从第二步开始持续反思进度并动态调整策略。当遇到失败或进入循环状态时,代理能自动创建新计划,显著增强长期推理能力。实验数据显示,启用 ReflectPlan 后,复杂任务的规划准确率提升 40%。
典型案例:在'预约明天上午 9 点的医生并发送提醒给家人'任务中,系统会先规划'打开健康应用→搜索科室→选择医生→预约时间→切换到消息应用→选择联系人→发送信息'的完整流程,并在每个步骤验证执行结果。
主动验证每个操作的有效性,包括元素 ID 存在性、操作类型匹配度等关键指标。该模块使操作错误导致的任务失败率降低 27%,尤其在 UI 元素识别易受干扰的场景中表现突出。
例如在处理'设置明天早上 7 点的闹钟'任务时,AutoCheck 会验证闹钟应用是否成功打开、时间选择器是否正确响应、重复选项是否符合预期等关键节点。
基于 GPT-4o 构建的细粒度评估器,将任务分解为多个子目标并逐步骤打分。这种细粒度评估不仅为数据库更新提供精准依据,更最大化挖掘有限数据的学习价值,加速系统迭代优化。
AndroidGen 框架下的 Llama-3-70B 模型在安卓环境任务中的成功率达到 68%,远超 M3A(42%)和 SeeAct(38%)等现有方案,接近 80% 的人类水平基准。这一数据充分体现了 AndroidGen 在解决移动智能体数据稀缺问题上的突破性进展,为开发者提供了更高效的智能体构建工具。
用户通过自然语言指令即可完成'发送邮件给张经理并抄送给团队成员'、'设置明天早上 7 点的闹钟并备注带笔记本电脑'等复杂操作,平均任务耗时从手动操作的 4 分 20 秒缩短至 58 秒。
在企业场景测试中,员工使用 AndroidGen 处理日常办公任务的效率提升 2.3 倍,特别是在数据录入、会议安排、报告生成等重复性工作中节省大量时间。
实现不同应用间的数据流转与协同,如'从日历导出明天的会议安排到 Excel 并发送给团队'、'将微信中的客户联系方式导入通讯录并设置提醒'等复杂流程。
在 AitW(Android in the Wild)真实设备评测中,跨应用任务成功率提升 40%,其中'社交媒体内容分享到办公文档'类任务的完成率从 32% 提升至 68%。
为视障用户提供全语音操控的手机使用方案,通过智能代理自动完成屏幕内容识别、信息提取与操作执行。测试显示,视障用户完成'查看银行账单并记录支出'任务的时间从 22 分钟缩短至 5 分钟,操作效率提升 65%。
AndroidGen-Llama-3-70B 的开源发布,有望重塑移动 AI 应用生态:
无需专业标注团队即可构建高质量安卓智能体,使中小开发者也能参与创新。传统方法需要 5-10 人的标注团队工作 2-3 个月才能构建基础数据集,而使用 AndroidGen 框架可在 1 周内完成相同规模的数据准备。开发者可通过以下命令获取模型并开始实验:
git clone <repository_url>
提供统一的数据生成与模型训练 pipeline,使不同团队开发的智能体具备互操作性。智谱 AI 已联合小米、OPPO 等厂商成立'移动智能体开放联盟',计划制定安卓智能体开发标准。
为智能家居控制、车载系统交互、工业平板操作等场景提供可迁移的技术方案。例如在车载系统中,AndroidGen 技术可实现'根据日历自动规划通勤路线并播报交通状况'的全流程服务。
AndroidGen-Llama-3-70B 通过创新的无监督数据生成技术和模块化架构设计,成功突破了移动智能体开发的数据瓶颈。其核心价值在于:技术层面证明了在数据稀缺条件下通过框架设计提升智能体能力的可行性;商业层面降低移动智能应用的开发成本;用户体验层面推动手机 AI 从'被动响应'向'主动服务'进化。
随着技术的不断迭代,我们正逐步迈向'自然语言即接口'的移动交互新时代,AndroidGen-Llama-3-70B 的开源无疑为这一进程按下了加速键。对于开发者而言,现在是进入移动智能体开发领域的最佳时机,通过 AndroidGen 框架,可以快速构建行业特定的智能助手,为现有应用添加自然语言交互接口,参与开源社区推动技术标准化。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
查找任何按下的键的javascript键代码、代码、位置和修饰符。 在线工具,Keycode 信息在线工具,online
JavaScript 字符串转义/反转义;Java 风格 \uXXXX(Native2Ascii)编码与解码。 在线工具,Escape 与 Native 编解码在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。 在线工具,JavaScript / HTML 格式化在线工具,online