快手开源 KwaiAgents:7B 小模型实现超越 GPT-3.5 的 Agent 能力
近期,快手联合哈尔滨工业大学正式开源了「KwaiAgents」项目。这一开源举措标志着大语言模型(LLM)在智能体(Agent)领域取得了重要进展。通过该系统,即使是 7B 或 13B 参数量的'小'规模模型,也能展现出超越 GPT-3.5 的复杂任务处理能力。
背景与挑战
大语言模型通过对海量语言的建模掌握了广泛知识,具备了一定的认知和推理能力。然而,即便是当前最强的 GPT-4 等模型,在单独使用时仍面临'幻觉'问题,即一本正经地胡说八道,且无法与真实世界保持实时交互。AI Agents(智能体)被视为解决这一问题的关键路径之一。
AI Agents 旨在激发大模型的任务规划、反思及工具调用能力,使其能够借助现实世界的工具提升生成内容的准确性,甚至有能力解决复杂的跨域问题。本次开源的 KwaiAgents 系统、模型、数据及评测基准全部开放,为社区提供了宝贵的研究资源。

核心组件概览
从 KwaiAgents 的 GitHub 主页可以看到,本次开源内容主要包含三大板块:
- 系统(KAgentSys-Lite):轻量级 AI Agents 系统,配备事实性与时效性工具集。
- 模型(KAgentLMs):经过 Meta-Agent Tuning (MAT) 微调后,具有通用 Agent 能力的系列大模型及其训练数据。
- 评测(KAgentBench):开箱即用的 Agent 能力自动化评测 Benchmark 与人工评测结果。
1. KAgentSys 系统架构
KAgentSys 系统以大模型作为认知内核,辅以记忆机制和工具库,形成迭代式的自动化处理流程。其核心设计包括以下三个部分:
记忆机制
系统包含三类记忆:知识库、对话历史、任务历史。依托于混合向量检索与关键词检索技术构建的检索框架,系统能够在每一次任务规划的路径中精准检索所需信息,确保上下文的一致性和连贯性。
工具集
工具集分为两类以增强模型能力:
- 事实性增强工具集:采用异构的搜索和浏览机制,能够汇集网页、文本百科、视频百科等多个来源的知识,解决知识滞后问题。
- 时效性增强工具集:包含日历、节日、时间差、天气等常见工具,帮助模型理解当前时间相关的约束。
自动化 Loop
在一轮对话中,用户输入问题及可选知识库和人设。系统执行以下循环:
- 记忆更新与检索:根据当前输入更新记忆并检索相关信息。
- 任务规划:调用大模型进行任务拆解与规划。
- 工具调用:若规划需要,则调用相应工具获取外部信息。
- 总结回答:综合历史信息给出符合预期的回答。
本次开源展示了 KAgentSys 的部分核心能力,未来系统将逐步升级并开放更多功能。

2. 模型微调:Meta-Agent Tuning (MAT)
为了避免训练中单一模板引起的过拟合问题,团队提出了 Meta-Agent Tuning (MAT) 方法。该方法通过在训练数据中引入更多样化的 Agent Prompt 模板,显著提升大模型在 Agent 能力上的通用性和效果。
MAT 分为两个阶段:
模板生成阶段
通过设计 Meta-Agent,针对特定问题集合生成实例化的 Agent Prompt 模板候选。在相同实验环境下,将模板产出的候选结果与开源模板(如 ReAct, AutoGPT 等)产出高置信结果进行对比打分,筛选出高质量的 Agent Prompt 模板库。引入多元模板能显著降低模型微调时对特定模板的依赖,提纯任务规划、工具使用、反思等本质能力,从而提高模型的泛化性和有效性。

指令微调阶段
基于上万个模板,团队构建了超过 20 万的 Agent 调优指令微调数据。目前团队已调优了 Qwen-7B、Baichuan2-13B 等热门开源模型,后续还将陆续放出其他热门模型版本,供社区使用和参考。
3. 评测基准:KAgentBench
KAgentBench 通过人工精细化标注的上千条数据,实现了开箱即用。用户可以通过一行命令评测一个大模型在不同模板下各方面的 Agent 能力。
在 KAgentBench 中,会对不同种类的能力构造输入,每个 Query 配备多个模板和多个人工编辑的真实回答,旨在综合评测准确性和泛化性。下表显示了经过 MAT 调优后,7B-13B 模型各项能力的提升情况,结果显示其效果超越了 GPT-3.5:
| 模型 | 准确率提升 | 泛化性表现 |
|---|
| 7B 模型 | 显著提升 | 优于基线 |
| 13B 模型 | 显著超越 | 接近 GPT-3.5 |
同时,该研究邀请人类标注者在 200 个事实性和时效性问题(例如'刘德华今年几岁了')上,对不同的大模型和 Agent 系统进行了交叉评估。数据显示 KAgentSys 系统和 MAT 微调后的模型提升显著。

典型案例分析
通常仅依赖网页搜索对长尾问题和热门问题返回结果不佳。例如询问'安东内拉比梅西大多少天?'这类长尾问题,常规搜索结果往往返回八卦新闻而非关键信息。而 KAgentSys 通过调用百科搜索工具获取精准的出生日期,再调用 time_delta 时间差工具计算年龄差,从而精准回答该问题。

技术意义与未来展望
AI Agents 是一条极具潜力的技术道路。一方面,团队将持续沉淀核心技术,为整个社区注入新的活力;另一方面,也将积极探索 Agents 技术与业务场景的结合,尝试更多有趣、有价值的创新应用落地。
此次开源不仅降低了 Agent 技术的门槛,也为中小参数模型在复杂任务中的表现提供了新的解决方案。对于开发者而言,利用 KwaiAgents 提供的工具和模型,可以快速构建具备感知、规划和行动能力的智能应用,推动人工智能从'对话'向'行动'的转变。
结语
随着大模型技术的不断演进,Agent 将成为连接数字世界与现实世界的重要桥梁。快手开源 KwaiAgents 项目,展示了其在 AI 基础设施领域的投入与成果,期待社区能在此基础上共同探索更强大的智能体应用。