打造高效的 LLM 多智能体系统：AgentPrune 通信剪枝优化

近期，大语言模型（LLM）驱动的智能体（Multi-Agent, MA）取得了显著进展。集体智能表现出超越单个智能体能力的优势，这主要归功于精心设计的智能体间通信拓扑结构。然而，现有的多智能体系统在性能上的提升往往是以大量的 Token 开销和经济成本为代价的，这使得大规模部署面临严峻挑战。为应对这一问题，本文介绍了一种经济、简洁且强大的多智能体通信优化框架——AgentPrune。它能够无缝集成到主流多智能体系统中，通过剪枝冗余的通信信息，使得 MA 中的 Agent 能够'少说废话'，从而在保持性能的同时大幅降低成本。

研究背景与动机

现有大模型多智能体系统中的通信机制

在大模型多智能体系统（LLM-MA）中，通信机制主要分为两种类型，它们决定了信息流动的方式和效率：

Intra-dialogue communication（对话内通信）：指多个 Agent 在同一轮对话中的互动方式。这种模式常见于合作、教学或竞争场景，要求 Agent 之间实时交换当前状态下的信息以协同完成任务。
Inter-dialogue communication（跨对话通信）：涉及跨对话轮次的信息传递和参考。例如，系统需要对上一轮的讨论进行总结、复制关键信息或过滤噪音，以便下一轮推理能基于更完整的历史上下文进行。

通信机制示意图

存在的问题和挑战

尽管 Multi-agent 系统在任务 Performance 上有所提升，但这种提升是建立在大量 Token 消耗的基础之上的。目前依赖大量 Token 消耗的 Multi-agent 系统在部署上存在明显限制，尤其是对于边缘智能设备而言，无法支持如此高昂的 Token 消耗。因此，如何在保证效果的前提下减少通信开销，成为该领域亟待解决的核心问题。

核心发现与方法论

时空图定义

作者首先将 LLM-MA 定义为一种时空图结构，主要从两个维度进行建模：

Spatial（空间维度）：对应同一轮内的通信。通常使用全连接图，例如 MacNet（OpenBMB）架构，意味着每个 Agent 都能接收到同组内其他所有 Agent 的信息。
Temporal（时间维度）：对应跨轮次的通信。类似 LLM-Debate（MIT），每个 Agent 会收到上一轮的所有回复作为输入，形成链式或树状的信息流。

时空图定义