开源模型首次击败 GPT-4 网页操作任务，7B 小模型获大模型级能力

开源模型首次在网页操作任务中击败 GPT-4

在 AI 快速发展的今天，让 AI 自动操作网页一直是一个重要而困难的任务。虽然 OpenAI 的 GPT-4 等闭源模型在这方面表现不俗，但高昂的使用成本限制了其应用范围。最近，研究人员提出了一种名为 WebRL 的创新训练方法，让开源模型在网页操作任务上首次超越了 GPT-4。

WebRL 采用了一种"在线课程学习"的方式来训练 AI。就像人类从简单到复杂循序渐进地学习一样，WebRL 让 AI 不断尝试各种网页任务，从失败中学习并自动生成新的练习任务。更巧妙的是，系统还会根据 AI 的当前水平动态调整任务难度，确保学习过程既不会太简单也不会太困难。

实验结果令人振奋：经过 WebRL 训练后，仅有 8B 参数的开源模型 Llama-3.1 的成功率从 4.8% 提升到了 42.4%，远超 GPT-4-Turbo 的 17.6%。这意味着，一个参数量更小的开源模型，通过更智能的训练方法，竟然在网页操作任务上超越了目前最强大的商业 AI 模型。

这项突破不仅证明了开源模型的潜力，更重要的是为 AI 自动化带来了新的可能。在未来，这种技术可能帮助我们开发出更多高效、低成本的 AI 助手，帮助人们自动完成各种网页操作任务，比如预订机票、比价购物等日常工作。

论文标题：WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

论文链接：https://arxiv.org/abs/2411.02337

AI 教 AI，7B 小模型获得"大模型级"能力提升

在 AI 领域有一个有趣的现象：大模型虽强，但成本高；小模型虽便宜，但能力差。如何让小模型也能拥有"大模型级"的能力？最新研究 Orca-AgentInstruct 给出了一个令人振奋的答案 - 让 AI 来教 AI。

研究团队开发的 AgentInstruct 框架堪称一个"AI 教学工厂"。它通过多个 AI 代理的协作，能从原始文档中自动生成海量的高质量训练数据。这些数据不是简单的模仿，而是经过了 AI 们反复推敲、验证和改进的教学内容。就像一群经验丰富的老师，精心设计教案来培养学生的各项能力。

实验效果令人惊艳：使用 AgentInstruct 生成的 2500 万条数据来训练 7B 参数的 Mistral 模型后，该模型在多个基准测试上都获得了显著提升。其中在 AGIEval 上提升 40%，数学问题 GSM8K 上提升 54%，综合能力测试 MMLU 上提升 19%。这意味着，通过"AI 教 AI"的方式，一个仅有 7B 参数的小模型也能获得接近大模型的表现。

更令人欣喜的是，研究团队已经开源了 100 万条由 AgentInstruct 生成的数据集。这不仅让其他研究者能复现和改进这一成果，更为未来 AI 技术的民主化和普及带来了新的可能。在不久的将来，我们也许能用更低的成本享受到更强大的 AI 服务。

论文标题：Orca-AgentInstruct: Agentic flows can be effective synthetic-data generators

论文链接：https://www.microsoft.com/en-us/research/blog/orca-agentinstruct-agentic-flows-can-be-effective-synthetic-data-generators/

开源模型首次击败 GPT-4 网页操作任务，7B 小模型获大模型级能力

开源模型首次在网页操作任务中击败 GPT-4

AI 教 AI，7B 小模型获得"大模型级"能力提升

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

开源模型首次击败 GPT-4 网页操作任务，7B 小模型获大模型级能力

开源模型首次在网页操作任务中击败 GPT-4

AI 教 AI，7B 小模型获得"大模型级"能力提升

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具