跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

Agent 在提示工程中的应用:从思维链到 ReAct

综述由AI生成探讨了 Agent 技术在提示工程中的应用,重点分析了 ReAct 框架。文章首先介绍了 LLM 的基本原理及其面临的幻觉和推理错误问题,随后阐述了提示工程的发展,特别是从 Zero-shot/Few-shot 到思维链(CoT)的演进。核心部分详细解释了 ReAct(Reasoning + Acting)机制,即通过让 LLM 交替进行推理思考和执行环境行动来解决复杂问题。文中引用了 Yao 等人的研究,展示了 ReAct 在 HotPotQA、FEVER、ALFWorld 和 WebShop 等基准测试中的表现,指出其在减少幻觉方面的优势及存在的推理错误挑战。最后总结了 Agent 技术对通用人工智能发展的意义及未来的改进方向。

并发大师发布于 2025/2/7更新于 2026/6/320 浏览
Agent 在提示工程中的应用:从思维链到 ReAct

Agent 在提示工程中的应用:从思维链到 ReAct

如果 Agent 能够模仿人类在现实世界中的操作方式,那么这种机制能否应用于提示工程(Prompt Engineering)领域呢?本文将深入探讨大型语言模型(LLM)的演进,以及 Agent 如何通过 ReAct 框架解决传统提示工程的局限性。

从 LLM 到 Prompt Engineering

大型语言模型(LLM)是基于 Transformer 架构的模型,已在海量语料库或文本数据集上进行了训练,涵盖了互联网上的大多数网页。在训练期间,需要消耗大量的时间、计算资源(如 GPU)、能量和水(用于冷却)。梯度下降法被用来优化模型的参数,使其能够很好地预测训练数据。

本质上,LLM 学习根据前面的词序预测最可能的下一个词。这可以用来执行推理(即查找模型生成某些文本的可能性),或者用来生成文本。像 ChatGPT 这样的 LLM 使用这些文本与人进行对话。一旦 LLM 完成了训练,意味着它的参数被保存,不会向训练数据或重新训练的数据中添加输入。值得注意的是,LLM 仍然会从训练数据中学到偏见,而背后的公司不得不增加安全措施,使用来自人类反馈的强化学习(RLHF)以防止该模型产生有问题的内容。此外,由于 LLM 默认情况下只是根据他们所看到的内容生成最有可能的下一个单词,而没有进行任何事实核查或推理,因此它们容易产生幻觉,或者编造事实,以及推理错误。

自从 ChatGPT 公开发布以来,LLM 风靡全球。这些模型的新兴智能以及它们在我们生活中的各个方面的应用,使它们成为一种非常受欢迎的工具。除了聊天机器人以及编码和写作助手,LLM 还被用来创建与包括互联网在内的模拟环境交互的 Agent。

如果尝试过 ChatGPT,有时会发现它的回答很糟糕,但是如果重新措辞这个问题,可能会得到更好的结果。这就是提示工程的艺术,通过修改输入使 LLM 以您希望的方式作出响应。提示语的背后只是尝试通过提出一些事实来'唤醒 LLM 的记忆',或者告诉它一个新的领域,然后从一个训练好的 LLM 那里得到适当的响应。这就是所谓的上下文学习(In-Context Learning),一般主要有两种类型:zero-shot 和 few-shot。

  • Zero-shot:为 LLM 提供了一个提示,可以在问题/命令之前包含一些背景信息,以帮助 LLM 找到一个好的响应。
  • Few-shot:给 LLM 提供了一些示例提示和可取的响应,然后提出一个新的提示,LLM 将以示例的格式响应这些提示。

提示工程可能是自然语言处理(NLP)的未来趋势之一。这个领域正在从定制模型转向定制提示,因为 LLM 比任何人在没有大量时间和精力的情况下自己制作的语言模型要好得多。当 LLM 与正确的提示工程技术配对时,通常情况下,它可以完成专用模型所能完成的任何工作。

从 CoT 到 Agent

思维链推理(Chain-of-Thought, CoT)是一种流行的提示工程技术,旨在对抗推理错误。它包括给 LLM 提供一个或多个例子,说明如何通过语言推理解决问题,然后给它一个不同的问题,以这种方式解决。这可以帮助克服推理的错误,但它仍然受到幻觉的影响。幻觉的'事实'可以通过推理传播,导致模型得出错误的结论。

只提出一个问题的标准提示语被比作思维链(CoT)提示的输入,需要多步推理才能解决问题。由于幻觉的问题,使用 CoT 提示的 LLM 有更令人信服的响应,但它仍然有可能是错误的。如果 LLM 要成为一个有用的工具,如果不能左右它胡编乱造,我们就永远不能相信它们,最好还是自己做研究。而 Agent 似乎可以解决这个问题,允许 LLM 采取行动,比如搜索维基百科,以便从中找到事实和理由。

Agent 的核心能力

Agent 不仅仅是生成文本,它具备感知环境和执行行动的能力。这使得 LLM 不再是一个封闭的黑盒,而是一个可以与外部世界交互的智能体。这种交互能力是解决幻觉问题的关键,因为它允许模型验证其生成的信息。

Agent 应用于提示工程示例——ReAct

与思维链推理一样,ReAct(Reasoning + Acting)也是一种提示工程方法,它使用少量学习(Few-Shot Learning)来教模型如何解决问题。CoT 被认为是模仿人类如何思考问题,ReAct 也包括了这个推理元素,但它更进一步,允许 Agent 操作文本,让它与环境互动。人类使用语言推理来帮助我们制定策略并记住事情,但也可以采取行动来获得更多的信息并实现目标。这就是 ReAct 的基础。

ReAct 提示包括行动的例子、通过行动获得的观察结果,以及人类在过程中各个步骤中转录的思想(推理策略)。LLM 学习模仿这种交叉思考和行动的方法,使其成为其环境中的 Agent。

一定要记住,观察结果不是由 LLM 生成的,而是由环境生成的,环境是一个单独的模块,LLM 只能通过特定的文本操作与之交互。因此,为了实现 ReAct,需要以下三个核心组件:

  1. 环境(Environment):它采取一个文本操作,从一组可以根据环境的内部状态改变的潜在操作中返回一个文本观察。
  2. 输出解析器框架(Output Parser):一旦 Agent 编写了一个有效的操作,它就停止生成文本,在环境中执行该操作,并返回观察结果。一般是将其追加到目前生成的文本中,并用该结果提示 LLM。
  • 人工产生的示例(Human-generated Examples):混合了思想、行动和观察,在环境中可以使用 few-shot。例子的数量和细节取决于目标和开发者的设计。
  • 在 ReAct 的示例中,思想、动作和观察都被清楚地标记,而且动作使用了一种特殊的格式,查询放在括号中,这样 Agent 就可以学习以这种方式编写任务,然后输出解析器就可以轻松地提取查询。

    Yao 等人 (2023) 使用了 PalM-540B,用这个 LLM 在两个知识密集型推理任务和两个决策任务上测试了基于 ReAct 的提示工程效果。

    知识密集型推理任务

    在这个任务领域中使用的两个域是 HotPotQA 和 FEVER,前者是使用 Wikipedia 段落进行多跳问答,后者是事实验证。Agent 可以使用以下操作与 Wikipedia API 进行交互:

    • Search:根据名称或大多数相似结果列表查找页面。
    • Find:在页中查找字符串。
    • Finish:以答案结束任务。

    在 HotPotQA 和 FEVER 这两个评估领域中,ReAct 与如下提示工程技术进行了比较,结果是通过 FEVER 的准确性和 HotPotQA 中 EM(Exact Match)来评估的。

    其中对比的方法包括:

    • Standard Prompt:没有思想,行动,或观察。
    • CoT:没有及时的行动或观察。
    • CoT-SC (Self-Consistency):从 LLM 中抽取一定数量的回答,并选择大多数作为回答。
    • Action:没有思维的 prompt。
    • ReAct -> CoT-SC:开始时是 ReAct,然后转换为 CoT-SC。
    • CoT-SC -> ReAct:开始时是 CoT-SC,然后切换到 ReAct。

    实验结果显示,ReAct 在 HotPotQA 中表现不佳,但在 FEVER 中表现优于 CoT。ReAct 比 CoT 更不容易产生幻觉,但是有更高的推理错误率。尽管 ReAct 确实有这个缺点,但是 ReAct -> CoT-SC 和 CoT-SC -> ReAct 方法是其中最成功的。这表明结合行动能力和自我一致性校验可以显著提升性能。

    决策任务

    测试 ReAct 的两个决策任务是 ALFWorld 和 WebShop。

    • ALFWorld:是一个基于文本的游戏,具有真实的环境。它具有用于在模拟世界中移动和交互的文本操作,例如'打开抽屉 1'。给代理人的一个目标可能是在房子里找到一个特定的物体,因此常识推理有助于知道这样一个物体通常在哪里被发现。衡量成功的标准是达到目标的试验的百分比。
    • WebShop:是一个模拟在线购物网站,数据来自亚马逊。这是一个挑战性的领域,因为它有大量的行动导航网站和搜索产品。目标是找到一个符合用户规范的项目。衡量成功的标准是所选项目与用户心目中的隐藏项目有多接近。

    从论文中的评估结果来看,ReAct 的表现明显优于基线。ReAct 虽然由于其推理错误而并不完善,但仍然是一个强有力的提示工程方法,它克服了思维链推理的事实幻觉问题,并且允许 LLM 成为一个可以与其环境相互作用的 Agent。此外,它具有可解释性,因为 Agent 在行动时输出其思维过程。

    实施挑战与未来方向

    尽管 ReAct 展示了巨大的潜力,但在实际部署中仍面临挑战。首先是延迟问题,每次行动都需要与外部环境交互,这会显著增加响应时间。其次是安全性,Agent 的行动权限必须受到严格控制,防止其执行有害操作。

    未来的研究方向包括增强 Agent 的记忆能力,使其能够从过去的经历中学习,而不是每次都依赖 Few-Shot 示例。此外,引入多模态能力将使 Agent 不仅能处理文本,还能理解图像和视频,从而在更广泛的场景中发挥作用。如果一个机器人有一种基于熟悉的特征对外部环境进行建模并使用该模型创建提示的方法,那么它至少可以尝试在各种领域独立行动,而不需要人工制作的示例。它还需要某种记忆,或者从它的经历中学习的能力,具有常识性知识的机器人,只要能够解决诸如推理错误和幻觉之类的问题,就可能对我们有很大的帮助。

    小结

    作为 Agent 应用于提示工程的一种具体实现,ReAct 迈出通往通用人工智能和具象语言模型的一步。它通过结合推理和行动,有效缓解了 LLM 的幻觉问题,提高了复杂任务的成功率。随着技术的进步,Agent 将在更多领域展现出自主解决问题的能力。

    目录

    1. Agent 在提示工程中的应用:从思维链到 ReAct
    2. 从 LLM 到 Prompt Engineering
    3. 从 CoT 到 Agent
    4. Agent 的核心能力
    5. Agent 应用于提示工程示例——ReAct
    6. 知识密集型推理任务
    7. 决策任务
    8. 实施挑战与未来方向
    9. 小结
    • 💰 8折买阿里云服务器限时8折了解详情
    • Magick API 一键接入全球大模型注册送1000万token查看
    • 🤖 一键搭建Deepseek满血版了解详情
    • 一键打造专属AI 智能体了解详情
    极客日志微信公众号二维码

    微信扫一扫,关注极客日志

    微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

    更多推荐文章

    查看全部
    • Python 环境搭建与安装配置完整指南
    • GitHub Copilot Pro 学生认证免费使用教程
    • 手势控制电脑方案分析与 Python 最小可运行示例
    • OpenCV 图像掩码操作与卷积滤波实现详解
    • LLM 大模型基础知识与核心概念详解
    • Node-RED 智能家居自动化入门与配置指南
    • AI 大模型的预训练、迁移与中间件编程技术解析
    • Agent 的九种设计模式详解:原理、图解与代码实现
    • 提示工程师:一个即将过时的职业
    • 美团搜索广告召回环节的产品逻辑与演进
    • MCP 插件配置实战:browser-tools-mcp 示例
    • Midjourney 提示词技巧:25 个摄影流派实战指南
    • 基于 Python 的 Windows 应用程序自动化操作流程实现
    • 基于 DeepSeek 和 Cursor 构建智能代码审查工具实战
    • VRCX 深度解析:VRChat 社交管理工具技术分析
    • SHA-256 哈希破解工具技术解析
    • IntelliJ IDEA 关闭 AI 自动代码补全提示的设置步骤
    • CoPaw 个人助理部署与定制指南:从零开始打造专属数字搭档
    • GitHub Copilot Agent 模式使用经验与技巧
    • C++ string 类详解:构造、遍历与常用操作

    相关免费在线工具

    • 加密/解密文本

      使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

    • RSA密钥对生成器

      生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

    • Mermaid 预览与可视化编辑

      基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

    • 随机西班牙地址生成器

      随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

    • Gemini 图片去水印

      基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

    • Base64 字符串编码/解码

      将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online