Agent 反思工作流框架 Reflexion 中篇：ReactAgent 实现与原理详解

综述由AI生成深入解析了 Agent 反思工作流框架 Reflexion 中的 ReactAgent 实现。文章首先介绍了 ReAct 论文的 TAO 循环（思考、行动、观察）机制，详细阐述了如何通过 Prompt 设计和 ScratchPad 草稿本引导 LLM 进行多步推理。接着分析了 ReactAgent 的代码结构，包括初始化配置、运行循环及单步执行逻辑，重点说明了温度控制、停止符设置及工具调用方式。最后补充了从 ReactAgent 到 ReactReflectAgent 的演进，解释了反思机制如何利用历史轨迹修正错误，提升复杂任务的成功率。

微码行者发布于 2025/2/7更新于 2026/6/319 浏览

前文《LLM-Agents] 万字长文深度解析 Agent 反思工作流框架 Reflexion 上篇：安装与运行》我们已经介绍了 Reflexion 框架的背景知识、数据集以及安装运行方法。在本文中，我们将深入探讨 Agent 的具体运行细节。

上篇讲到 agent.run(reflect_strategy=strategy)，我们知道 agent 是 ReactReflectAgent 类的实例，而 ReactReflectAgent 继承自 ReactAgent。因此，本文将从 ReactAgent 开始，然后逐步深入到 ReactReflectAgent，最终将整个流程连接起来。

1. ReactAgent 论文

ReAct 来自论文《ReAct: Synergizing Reasoning and Acting in Language Models》，它提出了一种新的方法，通过结合语言模型中的推理（reasoning）和行动（acting）来解决多样化的语言推理和决策任务。在多种任务上对 ReAct 进行了实验评估，包括问答（HotpotQA）、事实验证（Fever）、基于文本的游戏（ALFWorld）和网页导航（WebShop），并展示了其在少量样本学习设置下相比现有方法的优势。通过一系列的消融实验和分析，探讨了在推理任务中行动的重要性，以及在交互任务中推理的重要性。ReAct 提供了一种更易于人类理解、诊断和控制的决策和推理过程。它的典型流程如下图所示，可以用一个有趣的循环来描述：思考（Thought）→ 行动（Action）→ 观察（Observation），简称 TAO 循环。

思考（Thought）：首先，面对一个问题，我们需要进行深入的思考。这个思考过程是关于如何定义问题、确定解决问题所需的关键信息和推理步骤。
行动（Action）：确定了思考的方向后，接下来就是行动的时刻。根据我们的思考，采取相应的措施或执行特定的任务，以期望推动问题向解决的方向发展。
观察（Observation）：行动之后，我们必须仔细观察结果。这一步是检验我们的行动是否有效，是否接近了问题的答案。
循环迭代：如果观察到的结果并不匹配我们预期的答案，那么就需要回到思考阶段，重新审视问题和行动计划。这样，我们就开始了新一轮的 TAO 循环，直到找到问题的解决方案。

它的典型的流程如下图所示，通过不断地循环迭代来推理到最终答案。

2. 设计 ReAct Agent

从上面的演示图来看，如果我们要实现 ReAct，他应该是什么样子呢？首先，他需要一个循环迭代。如何让 LLM 能够先思考，然后基于思考结果给出行动指导呢？我们需要设计一个良好的 Prompt，并给出 Few-shot 示例。如何将迭代的流程告诉 LLM，避免多次思考出相同的结果呢？可能有人会说，把整个对话流程都塞给 LLM，这也不是不行，但是我们有很多的示例数据。那么这里我要介绍一个概念 ScratchPad，简单理解他是一个草稿本，用来记录 LLM 思考、行动和观察的结果过程，类似不断的推理的草稿本。

2.1 设计 Prompt

我认为良好的 Prompt，要有明确的任务说明，完整的输入说明和输出说明，格式要求，示例，对于 ReAct，还需要有草稿本。以上述问答的 Prompt 为例，它的 Prompt 设计如下。其中 example 中应该给出 Thought 时候，要搜索的实体，然后在 Action 中直接自动提取实体，在 Observation 中给出观察的结果，example 大约在 4-5 个左右。

用交替进行的"思考、行动、观察"三个步骤来解决问答任务。思考可以对当前情况进行推理，而行动必须是以下三种类型：
(1) Search[entity]，在维基百科上搜索确切的实体，并返回第一个段落（如果存在）。如果不存在，将返回一些相似的实体以供搜索。
() Lookup[keyword]，在上一次成功通过 Search 找到的段落中返回包含关键字的下一句。
() Finish[answer]，返回答案并结束任务。
你可以采取必要的步骤。确保你的回应必须严格遵循上述格式，尤其是行动必须是以上三种类型之一。
以下是一些参考示例：
Question: What  the elevation   the area that the eastern sector of the Colorado orogeny extends into?
Thought : I need to search Colorado orogeny, find the area that the eastern sector of the Colorado orogeny extends into, then find the elevation  of the area.
Action : Search[Colorado orogeny]
Observation : The Colorado orogeny was an episode of mountain building (an orogeny)  Colorado  surrounding areas.
Thought : It does  mention the eastern sector. So I need to look up eastern sector.
...
（例子结束）
Question：{question}
{scratchpad}

Agent 反思工作流框架 Reflexion 中篇：ReactAgent 实现与原理详解

1. ReactAgent 论文

2. 设计 ReAct Agent

2.1 设计 Prompt

更多推荐文章

相关免费在线工具

2.2 流程设计图

3. ReactAgent 实现

3.1 初始化

3.2 运行函数 run

3.3 step 方法

3.4 Thought

3.5 Action

3.6. Observe

3.7 迭代 React

4. 引入反思机制：ReactReflectAgent

5. 总结

更多推荐文章

相关免费在线工具

Agent 反思工作流框架 Reflexion 中篇：ReactAgent 实现与原理详解

1. ReactAgent 论文

2. 设计 ReAct Agent

2.1 设计 Prompt

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 流程设计图

3. ReactAgent 实现

3.1 初始化

3.2 运行函数 run

3.3 step 方法

3.4 Thought

3.5 Action

3.6. Observe

3.7 迭代 React

4. 引入反思机制：ReactReflectAgent

5. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具