开源模型首次在网页操作任务中击败 GPT-4
在 AI 快速发展的今天,让 AI 自动操作网页一直是一个重要而困难的任务。虽然 OpenAI 的 GPT-4 等闭源模型在这方面表现不俗,但高昂的使用成本限制了其应用范围。最近,研究人员提出了一种名为 WebRL 的创新训练方法,让开源模型在网页操作任务上首次超越了 GPT-4。
WebRL 采用了一种"在线课程学习"的方式来训练 AI。就像人类从简单到复杂循序渐进地学习一样,WebRL 让 AI 不断尝试各种网页任务,从失败中学习并自动生成新的练习任务。更巧妙的是,系统还会根据 AI 的当前水平动态调整任务难度,确保学习过程既不会太简单也不会太困难。
实验结果令人振奋:经过 WebRL 训练后,仅有 8B 参数的开源模型 Llama-3.1 的成功率从 4.8% 提升到了 42.4%,远超 GPT-4-Turbo 的 17.6%。这意味着,一个参数量更小的开源模型,通过更智能的训练方法,竟然在网页操作任务上超越了目前最强大的商业 AI 模型。
这项突破不仅证明了开源模型的潜力,更重要的是为 AI 自动化带来了新的可能。在未来,这种技术可能帮助我们开发出更多高效、低成本的 AI 助手,帮助人们自动完成各种网页操作任务,比如预订机票、比价购物等日常工作。
论文标题:WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
AI 教 AI,7B 小模型获得"大模型级"能力提升
在 AI 领域有一个有趣的现象:大模型虽强,但成本高;小模型虽便宜,但能力差。如何让小模型也能拥有"大模型级"的能力?最新研究 Orca-AgentInstruct 给出了一个令人振奋的答案 - 让 AI 来教 AI。
研究团队开发的 AgentInstruct 框架堪称一个"AI 教学工厂"。它通过多个 AI 代理的协作,能从原始文档中自动生成海量的高质量训练数据。这些数据不是简单的模仿,而是经过了 AI 们反复推敲、验证和改进的教学内容。就像一群经验丰富的老师,精心设计教案来培养学生的各项能力。
实验效果令人惊艳:使用 AgentInstruct 生成的 2500 万条数据来训练 7B 参数的 Mistral 模型后,该模型在多个基准测试上都获得了显著提升。其中在 AGIEval 上提升 40%,数学问题 GSM8K 上提升 54%,综合能力测试 MMLU 上提升 19%。这意味着,通过"AI 教 AI"的方式,一个仅有 7B 参数的小模型也能获得接近大模型的表现。
更令人欣喜的是,研究团队已经开源了 100 万条由 AgentInstruct 生成的数据集。这不仅让其他研究者能复现和改进这一成果,更为未来 AI 技术的民主化和普及带来了新的可能。在不久的将来,我们也许能用更低的成本享受到更强大的 AI 服务。
论文标题:Orca-AgentInstruct: Agentic flows can be effective synthetic-data generators


