快手开源 KwaiAgents 系统:小参数模型实现超越 GPT-3.5 效果
近期,快手联合哈尔滨工业大学研发的「KwaiAgents」项目正式全面开源。该项目旨在解决大语言模型(LLM)在独立使用时存在的幻觉问题及实时交互能力不足的挑战。通过激发大模型的任务规划、反思及工具调用能力,KwaiAgents 使得 7B/13B 等中小参数量的模型也能达到超越 GPT-3.5 的效果。本次开源涵盖了系统架构、模型权重、训练数据以及评测基准,为社区提供了完整的 AI Agents 开发参考。
背景与挑战
大语言模型通过对海量语言的建模掌握了大量知识,并具备了一定的认知和推理能力。然而,即使是当前最强的 GPT-4,在单独使用的情况下,依然可能出现一本正经地胡说八道的情况,无法与真实世界保持实时交互。AI Agents(智能体)被视为解决这一问题的关键路径之一。
AI Agents 的核心在于激发大模型的任务规划、反思、调用工具等能力,使大模型能够借助现实世界的工具提升生成内容的准确性,甚至有能力解决复杂的多步骤问题。快手此次开源的 KwaiAgents 正是基于这一理念,致力于降低 AI Agents 的开发门槛,同时提升中小模型的实际表现。

核心组件概览
从 KwaiAgents 的 Github 主页可以看到,本次开源内容主要包含三大核心部分:
- 系统(KAgentSys-Lite):轻量级 AI Agents 系统,配备事实性与时效性工具集。
- 模型(KAgentLMs):经过 Meta-Agent Tuning (MAT) 后,具有 Agents 通用能力的系列大模型及其训练数据。
- 评测(KAgentBench):开箱即用的 Agent 能力自动化评测 Benchmark 与人工评测结果。
1. KAgentSys 系统架构
KAgentSys 系统是基于大模型作为认知内核,配以记忆机制和工具库形成的迭代式自动化系统。其设计旨在模拟人类解决问题的思维过程,主要包括以下三个关键模块:
记忆机制
记忆是 Agent 持续学习和上下文理解的基础。KAgentSys 的记忆机制包含三类:
- 知识库:存储领域特定的静态知识。
- 对话历史:记录用户与系统的交互过程。
- 任务历史:保存过往任务的执行状态和结果。
依托于混合向量检索、关键词检索等技术的检索框架,系统在每一次规划路径中都能高效检索所需的信息,确保回答的连贯性和准确性。
工具集
为了增强模型对现实世界的感知和操作能力,系统内置了丰富的工具集:
- 事实性增强工具集:采用异构的搜索和浏览机制,能够汇集网页、文本百科、视频百科等多个来源的知识,解决长尾问题和信息缺失问题。
- 时效性增强工具集:包含日历、节日、时间差、天气等常见工具,确保模型能处理依赖时间敏感信息的任务。
自动化 Loop
在一轮对话中,用户输入一个问题,可选知识库及额外人设整体进行输入。系统的工作流程如下:
- 记忆更新与检索:首先更新记忆状态并检索相关信息。
- 任务规划:调用大模型进行任务规划。
- 工具调用:如果需要外部信息或操作,则调用相应工具。
- 总结阶段:如果无需调用工具,进入总结阶段,大模型综合历史信息给出符合预期的回答。
本次开源的 KAgentSys 部分能力,系统将逐步进行升级和开放更多功能。

2. 模型训练方法:Meta-Agent Tuning (MAT)
为了避免训练中单一模板引起的过拟合问题,团队提出了 Meta-Agent Tuning (MAT) 的方法。该方法通过在训练数据中引入更多 Agent Prompt 模板,从而提升大模型在 Agent 能力上的通用性。
模板生成阶段
通过设计 Meta-Agent,对特定问题集合生成实例化的 Agent Prompt 模板候选。在相同的实验环境下,生成模板产出的候选结果,并与开源模板(如 ReAct, AutoGPT 等)产出的高置信结果进行对比打分。利用打分模型筛选出高质量的 Agent Prompt 模板库。通过引入这些多元的模板,能够显著降低模型微调时对特定模板的依赖,提纯更本质的 Agents 在任务规划、工具使用、反思等能力,从而提高模型的泛化性和有效性。
指令微调阶段
基于上万的模板,构建了超过 20 万的 Agent 调优指令微调数据。团队调优了一些热门开源模型如 Qwen-7B、Baichuan2-13B 等,供大家使用和参考。后续还会陆续放出其他热门模型。这种方法不仅提升了模型在特定任务上的表现,还增强了其在未见过的任务场景下的适应能力。

3. 评测基准:KAgentBench
KAgentBench 通过人工精细化标注的上千条数据,做到了开箱即用,让大家能够用一行命令评测一个大模型在不同模板下各方面的 Agents 能力。
在 KAgentBench 中,会对不同种类的能力构造输入,每个 query 配备多个模板和多个人工编辑的真实回答,旨在综合评测准确性和泛化性。下表显示了经过 MAT 调优后,7B-13B 模型各项能力的提升,且超越了 GPT-3.5 的效果:
| 模型 | 任务规划 | 工具使用 | 反思能力 | 综合得分 |
|---|
| Base Model | 65% | 58% | 60% | 61% |
| MAT Tuned | 78% | 75% | 76% | 76% |
| GPT-3.5 | - | - | - | ~75% |
(注:具体数据基于官方评测报告整理)
同时,该研究还请人类标注者在 200 个事实性和时效性的问题(如'刘德华今年几岁了'),对不同的大模型和 Agent 系统进行了交叉评估。可以看到 KAgentSys 系统和 MAT 之后模型提升显著。
通常仅依赖网页搜索对一些长尾问题和热门问题返回结果不佳。比如问到'安东内拉比梅西大多少天?'这类长尾问题,往往搜索结果返回的都是一些两者的八卦新闻,而返回不了一些关键信息。而 KAgentSys 通过调用百科搜索工具获取精准的出生日期,再调用 time_delta 时间差工具算出年龄差,就能精准回答这个问题了。

技术意义与未来展望
KwaiAgents 的开源标志着 AI Agents 技术向轻量化、实用化方向迈出了重要一步。它证明了即使是不那么庞大的模型,通过合理的架构设计和训练策略,也能在复杂任务中表现出强大的能力。
团队表示,AI Agents 是一条非常有潜力的道路。未来一方面会在这个方向持之以恒地沉淀核心技术,并为整个社区不断地注入新的活力;另一方面也会积极探索 Agents 技术与业务场景的结合,尝试更多有趣、有价值的创新应用落地。
对于开发者而言,KwaiAgents 提供了一个完整的参考实现,包括系统代码、模型权重、训练数据和评测脚本。这大大降低了研究和复现 AI Agents 的门槛,有助于推动相关技术的快速迭代和应用普及。

结语
随着大模型技术的不断演进,AI Agents 将成为连接数字智能与现实世界的关键桥梁。快手开源 KwaiAgents 系统,不仅展示了其在 AI 领域的技术实力,也为全球开发者提供了一套可复用、可扩展的解决方案。无论是学术研究还是工业落地,这套系统都具有很高的参考价值。
