快手开源 KwaiAgents 系统：小参数模型实现超越 GPT-3.5 效果

近期，快手联合哈尔滨工业大学研发的「KwaiAgents」项目正式全面开源。该项目旨在解决大语言模型（LLM）在独立使用时存在的幻觉问题及实时交互能力不足的挑战。通过激发大模型的任务规划、反思及工具调用能力，KwaiAgents 使得 7B/13B 等中小参数量的模型也能达到超越 GPT-3.5 的效果。本次开源涵盖了系统架构、模型权重、训练数据以及评测基准，为社区提供了完整的 AI Agents 开发参考。

背景与挑战

大语言模型通过对海量语言的建模掌握了大量知识，并具备了一定的认知和推理能力。然而，即使是当前最强的 GPT-4，在单独使用的情况下，依然可能出现一本正经地胡说八道的情况，无法与真实世界保持实时交互。AI Agents（智能体）被视为解决这一问题的关键路径之一。

AI Agents 的核心在于激发大模型的任务规划、反思、调用工具等能力，使大模型能够借助现实世界的工具提升生成内容的准确性，甚至有能力解决复杂的多步骤问题。快手此次开源的 KwaiAgents 正是基于这一理念，致力于降低 AI Agents 的开发门槛，同时提升中小模型的实际表现。

KwaiAgents System Architecture

核心组件概览

从 KwaiAgents 的 Github 主页可以看到，本次开源内容主要包含三大核心部分：

系统（KAgentSys-Lite）：轻量级 AI Agents 系统，配备事实性与时效性工具集。
模型（KAgentLMs）：经过 Meta-Agent Tuning (MAT) 后，具有 Agents 通用能力的系列大模型及其训练数据。
评测（KAgentBench）：开箱即用的 Agent 能力自动化评测 Benchmark 与人工评测结果。

1. KAgentSys 系统架构

KAgentSys 系统是基于大模型作为认知内核，配以记忆机制和工具库形成的迭代式自动化系统。其设计旨在模拟人类解决问题的思维过程，主要包括以下三个关键模块：

记忆机制

记忆是 Agent 持续学习和上下文理解的基础。KAgentSys 的记忆机制包含三类：

知识库：存储领域特定的静态知识。
对话历史：记录用户与系统的交互过程。
任务历史：保存过往任务的执行状态和结果。

依托于混合向量检索、关键词检索等技术的检索框架，系统在每一次规划路径中都能高效检索所需的信息，确保回答的连贯性和准确性。

工具集

为了增强模型对现实世界的感知和操作能力，系统内置了丰富的工具集：

事实性增强工具集：采用异构的搜索和浏览机制，能够汇集网页、文本百科、视频百科等多个来源的知识，解决长尾问题和信息缺失问题。
时效性增强工具集：包含日历、节日、时间差、天气等常见工具，确保模型能处理依赖时间敏感信息的任务。

自动化 Loop

在一轮对话中，用户输入一个问题，可选知识库及额外人设整体进行输入。系统的工作流程如下：

记忆更新与检索：首先更新记忆状态并检索相关信息。
任务规划：调用大模型进行任务规划。
工具调用：如果需要外部信息或操作，则调用相应工具。
总结阶段：如果无需调用工具，进入总结阶段，大模型综合历史信息给出符合预期的回答。

本次开源的 KAgentSys 部分能力，系统将逐步进行升级和开放更多功能。

KAgentSys Workflow Diagram

模型	任务规划	工具使用	反思能力	综合得分
Base Model	65%	58%	60%	61%
MAT Tuned	78%	75%	76%	76%
GPT-3.5	-	-	-	~75%

快手开源 KwaiAgents 系统：小参数模型实现超越 GPT-3.5 效果