打造高效的 LLM 多智能体系统:AgentPrune 通信剪枝优化
近期,大语言模型(LLM)驱动的智能体(Multi-Agent, MA)取得了显著进展。集体智能表现出超越单个智能体能力的优势,这主要归功于精心设计的智能体间通信拓扑结构。然而,现有的多智能体系统在性能上的提升往往是以大量的 Token 开销和经济成本为代价的,这使得大规模部署面临严峻挑战。为应对这一问题,本文介绍了一种经济、简洁且强大的多智能体通信优化框架——AgentPrune。它能够无缝集成到主流多智能体系统中,通过剪枝冗余的通信信息,使得 MA 中的 Agent 能够'少说废话',从而在保持性能的同时大幅降低成本。
研究背景与动机
现有大模型多智能体系统中的通信机制
在大模型多智能体系统(LLM-MA)中,通信机制主要分为两种类型,它们决定了信息流动的方式和效率:
- Intra-dialogue communication(对话内通信):指多个 Agent 在同一轮对话中的互动方式。这种模式常见于合作、教学或竞争场景,要求 Agent 之间实时交换当前状态下的信息以协同完成任务。
- Inter-dialogue communication(跨对话通信):涉及跨对话轮次的信息传递和参考。例如,系统需要对上一轮的讨论进行总结、复制关键信息或过滤噪音,以便下一轮推理能基于更完整的历史上下文进行。

存在的问题和挑战
尽管 Multi-agent 系统在任务 Performance 上有所提升,但这种提升是建立在大量 Token 消耗的基础之上的。目前依赖大量 Token 消耗的 Multi-agent 系统在部署上存在明显限制,尤其是对于边缘智能设备而言,无法支持如此高昂的 Token 消耗。因此,如何在保证效果的前提下减少通信开销,成为该领域亟待解决的核心问题。
核心发现与方法论
时空图定义
作者首先将 LLM-MA 定义为一种时空图结构,主要从两个维度进行建模:
- Spatial(空间维度):对应同一轮内的通信。通常使用全连接图,例如 MacNet(OpenBMB)架构,意味着每个 Agent 都能接收到同组内其他所有 Agent 的信息。
- Temporal(时间维度):对应跨轮次的通信。类似 LLM-Debate(MIT),每个 Agent 会收到上一轮的所有回复作为输入,形成链式或树状的信息流。

通信冗余的发现
通过实验观察发现,即使随机裁剪掉 20-30% 的通信边(使用 4 个 GPT-3.5 作为 Agents),系统的性能反而会有所提升。这表明现有的全连接或全历史接收机制中存在大量的冗余信息。
因此,研究将**Communication Redundancy(通信冗余)**定义为 LLM-MA 图中不必要的边。去除这些边后,只要性能变化小于一个可接受的阈值,即可视为有效剪枝。

Intra-dialogue communication 通常使用全连接图,导致每个 Agent 都处理所有同伴的消息。








