吴恩达详解 AI Agent 工作流与四种设计模式

吴恩达在红杉资本 AI 峰会上分享了 AI Agent 工作流的多步迭代模式与效果分析。文章对比了非代理式与代理式工作流程的差异，指出代理模式能显著提升模型在编码等任务上的表现。核心内容涵盖四种 AI Agent 设计模式：反思机制用于自我审查代码，工具使用扩展模型执行外部操作能力，规划能力使代理能自主拆解任务并应对失败，多智能体协作通过角色扮演提升复杂问题解决效率。这些创新模式有助于推动人工智能向通用智能发展，强调快速生成 token 与迭代优化的重要性。

灭霸发布于 2025/2/7更新于 2026/7/833 浏览

吴恩达详解 AI Agent 工作流与四种设计模式

吴恩达教授，斯坦福大学计算机科学系和电子工程系副教授，人工智能实验室主任。DeepLearning.AI 创始人，并开创性地提出了深度学习概念。本文整理自他在红杉资本人工智能峰会 (AI Ascent) 上的演讲内容，重点探讨了 AI Agent 工作流的多步迭代模式及基于人工评估基准测试的效果分析，并介绍了 AI Agent 设计模式的四种分类：反思、工具使用、规划、多智能体协作。

AI Agent 工作流示意图

AI Agent 工作流的模式与效果

在当前的技术实践中，大型语言模型的应用通常遵循一种非代理式工作流程（Non-Agent Workflow）。这种工作方式可以类比为要求一个人在没有任何修改机会的情况下，一次性完成整篇文章的撰写。这就好比是在写作时不允许使用退格键，尽管这样的限制看似严苛，但大型语言模型在这种模式下的表现却出人意料地优异。

然而，如果我们采用代理式工作流程（Agent Workflow），那么工作方式将会有显著的不同：我们首先让人工智能生成文章的大纲，然后根据需要进行网络搜索，接着撰写初稿，之后对初稿进行审阅和反思，找出需要改进的地方，并进行相应的修改。通过这样的迭代过程，我们可以逐步提升文章的质量。这种模式更接近人类解决问题的思维链（Chain of Thought）。

吴教授的研究团队对一个名为'人工评估基准测试'的编码基准数据集进行了深入分析。该数据集包含了各种编码问题，例如'给定一个非空整数列表，求其中所有偶数位置元素的和'。传统的方法是直接使用零样本提示（Zero-shot Prompting），即让人工智能独立编写并运行代码，但这并不是人类程序员的实际编码方式。

研究显示，在使用零样本提示的情况下，GPT-3.5 的正确率仅为 48%，而 GPT-4 则提升到了 67%。然而，当在 GPT-3.5 上应用代理工作流程时，其表现竟然超过了 GPT-4。同样地，GPT-4 在采用代理工作流程后，也展现出了卓越的性能。这一发现强调了代理工作流程在构建高效应用程序中的关键作用。通过这种方式，我们不仅能够提升模型的性能，还能够更接近人类程序员的工作习惯，从而开发出更加智能和实用的应用程序。

AI Agent 性能对比图

AI Agent 四种设计模式

AI Agent 设计模式概览

1. 反思（Reflection）

在软件开发的过程中，'反思'（Reflection）是一个至关重要的环节，它是一种值得每个人采用的工具，因为它的效果非常显著。具体来说，我们可以将之前由语言模型生成的代码再次输入给同一个模型，并要求它进行深入的检查。

我们可以这样提示模型：'请仔细审查这段代码，评估其正确性、效率和结构，并提供你的专业评论。'这样的自我检查过程，即使是由同一个生成代码的模型来执行，也可能揭示出潜在的漏洞，并提出宝贵的改进建议。在接收到模型的反馈之后，我们可以进一步与它互动，通过连续的迭代提示，引导模型生成更加优化的代码版本。

进一步地，我们可以将这种单一的编码代理的概念扩展为一个包含两个代理的系统：一个负责编码，另一个负责评审。这两个代理可以基于同一个大型语言模型，但是通过不同的提示来激活它们各自的专业角色。对于编码代理，我们可以说：'你是一个专业的编码者，请编写代码。'而对于评审代理，我们则提示：'你是一个专业的代码评审员，请评审这段代码。'

这种工作流程不仅易于实现，而且吴教授认为它是一种强大的通用技术，能够显著提升大型语言模型在各种工作流程中的性能。通过这种方式，我们可以模拟真实的软件开发环境，其中开发者和评审员协同工作，共同推动代码质量的提升。这种方法不仅能够提高代码的质量和效率，还能够让我们更好地理解和利用大型语言模型的潜力。

反思机制示意图