通用 LLM Agent 构建指南:从基础到进阶
1. LLM Agent 是什么
大语言模型智能体(LLM Agent)是一种程序,其执行逻辑由其底层模型控制。与传统的少样本提示(Few-Shot Prompting)或固定工作流程不同,Agent 能够定义和调整执行用户查询所需的步骤。
通过一组工具(如代码执行、网络搜索、数据库查询),智能体可以决定使用哪个工具、如何使用它,并根据输出对结果进行迭代。这种适应性使系统能够以最小的配置处理各种用例,从简单的问答到复杂的任务规划。
智能体架构存在于一个范围内,从固定工作流程的可靠性到自主智能体的灵活性。例如,像检索增强生成(RAG)这样的固定流程可以通过自我反思循环进行增强,使程序在初始响应不足时能够进行迭代。或者,一个反应式(ReAct)智能体可以配备固定流程作为工具,提供一种灵活而结构化的方法。架构的选择最终取决于用例以及在可靠性和灵活性之间的期望权衡。
2. 构建通用型大语言模型智能体的步骤
2.1 选择合适的大语言模型
选择合适的模型对于实现期望的性能至关重要。需要考虑多个因素,如许可证、成本和语言支持。构建大语言模型智能体时,最重要的考虑因素是模型在关键任务(如编码、工具调用和推理)上的性能。
评估基准包括:
- 大规模多任务语言理解(MMLU):衡量推理能力。
- 伯克利函数调用排行榜:评估工具选择与工具调用的准确性。
- HumanEval 和 BigCodeBench:评估代码生成与理解能力。
模型的上下文窗口也是一个关键因素。智能体工作流程可能会消耗大量 token,有时甚至超过 10 万个,较大的上下文窗口非常有帮助,因为它能容纳更多的历史对话和工具输出。
可供考虑的模型类别:
- 前沿模型:如 GPT-4o、Claude 3.5,通常具有最强的推理和指令遵循能力,但成本较高。
- 开源模型:如 Llama 3.2、Qwen2.5,适合私有化部署和成本控制,但在复杂任务上可能略逊于闭源模型。
一般来说,较大的模型往往性能更好,但能够在本地运行的较小模型仍然是一个不错的选择。使用较小的模型时,你将局限于更简单的用例,并且可能只能将智能体连接到一两个基本工具。
2.2 定义智能体的控制逻辑(即通信结构)
LLM 和智能体之间的主要区别在于系统提示。在 LLM 的背景下,系统提示是在模型处理用户查询之前提供给它的一组指令和上下文信息。大语言模型的智能体行为可以在系统提示中进行编码。
以下是一些常见的智能体模式,可以根据需要进行定制:
- 工具使用:智能体决定何时将查询路由到适当的工具或依赖自身知识。
- 反思:智能体在回答用户之前审查并纠正自己的答案。大多数大语言模型系统也可以添加反思步骤,通过自我批判提高准确率。
- 推理 - 行动(ReAct):智能体迭代地推理如何解决查询,执行一个动作,观察结果,并决定是否采取另一个动作或提供响应。这是目前最流行的模式之一。
- 计划 - 执行:智能体预先计划,将任务分解为子步骤(如果需要),然后执行每个步骤。适用于长链条任务。
最后两种模式(ReAct 和计划 - 执行)通常是构建通用型单智能体的最佳起点。
为了有效地实现这些行为,你需要进行一些提示词工程。你可能还想使用结构化生成技术。这基本上意味着塑造大语言模型的输出以匹配特定的格式或模式,以便智能体的响应与你所期望的通信风格保持一致。
示例:以下是来自 Bee Agent 框架的反应式(ReAct)风格智能体的提示结构:
# Communication structure
You communicate only in instruction lines. The format is: "Instruction: expected output\n".
You must only use these instruction lines and must not enter empty lines between them.
Each instruction must start on a new line.
{{
You must skip the instruction lines Function Name, Function Input Function Output no function calling required.
{{/tools.length}}
Message: Uses message, including an explanation of the reasoning behind it. It must be immediately followed by Final Answer.
{{/tools.length}}
{{
Thought: A single-line step-by-step plan of how to answer the use


