吴恩达:智能体研究日趋成熟,模型优化迎来新方向
受 ChatGPT 强大问答能力的影响,大型语言模型(LLM)提供商往往优化模型来回答人们的问题,以提供良好的消费者体验。随着智能体(Agent)研究日趋成熟,优化似乎有了新的方向。
人工智能著名学者、斯坦福大学教授吴恩达指出:「现在有一种趋势是优化模型以适应智能体工作流程,这将为智能体性能带来巨大提升」。本文基于其博客内容,深入阐述这一趋势及其技术内涵。
从问答到工作流:LLM 优化的范式转移
继 ChatGPT 在回答问题方面取得突破性成功之后,许多 LLM 的开发都集中在提供良好的消费者体验上。因此,LLM 被调整为回答问题或遵循人类提供的指令。指令调整指导模型的数据集很大一部分可以为人类编写的问题和指令提供更有用的答案,面向 ChatGPT、Claude、Gemini 等等。
但智能体工作负载与传统的对话机器人不同。人工智能软件不是直接为消费者生成响应,而是应该在迭代工作流程中执行任务,具体包括:
- 反思自己的输出:模型需要能够评估生成的内容是否满足目标,并在必要时进行自我修正。
- 使用工具:模型应能调用外部 API、数据库或代码解释器来获取信息或执行操作。
- 编写规划:面对复杂任务,模型需具备拆解步骤、制定计划的能力。
- 在多智能体环境中进行协作:多个 AI 智能体之间需要分工合作,共同完成系统级任务。
主要模型制造商也越来越多地优化用于 AI 智能体的模型,而非仅仅针对对话流畅度。
关键技术演进:工具使用与计算机操作
工具使用(函数调用)
以工具使用(或函数调用)为例。如果 LLM 被问及当前天气,它将无法从训练数据中获取所需的信息。相反,它可能会生成 API 调用请求以获取该信息。甚至在 GPT-4 原生支持函数调用之前,应用程序开发人员就已经使用 LLM 来生成函数调用,通过编写更复杂的提示来告诉 LLM 哪些函数可用,然后让 LLM 生成用于确定是否要调用函数的字符串。
在 GPT-4 之后,生成此类调用变得更加可靠,然后许多其他模型本身就支持函数调用。如今,LLM 可以决定调用函数来搜索信息以进行检索增强生成 (RAG)、执行代码、发送电子邮件、在线下订单等等。
计算机原生操作
最近,Anthropic 推出了升级版的 Claude 3.5 Sonnet,能像人一样使用计算机。这意味着 LLM 原生使用计算机方向向前迈出了一大步,将帮助许多开发人员。一些团队还致力于让 LLM 使用计算机构建新一代 RPA(机器人流程自动化)应用程序。
这种能力的提升意味着模型不再仅仅是文本生成器,而是成为了能够感知环境、操作界面的数字员工。
开发策略:Prompt、微调与原生构建
随着智能体工作流程的成熟,开发者面临三种主要的模型适配路径:
1. Prompt Engineering(提示工程)
首先,许多开发人员正在 prompt LLM 来执行他们想要的智能体行为。这样可以进行快速、丰富的探索!通过精心设计的 System Prompt 和 Few-Shot Learning,可以在不改变模型权重的情况下引导模型表现出特定的 Agent 行为。
2. Fine-tuning(微调)
在极少数情况下,开发非常有价值的应用程序的开发人员将微调 LLM,以更可靠地执行特定的智能体功能。例如,尽管许多 LLM 本身支持函数调用,但它们是通过将可用函数的描述作为输入,然后(希望)生成输出 token 以请求正确的函数调用来实现这一点的。对于生成正确函数调用非常重要的任务关键型应用程序,针对应用程序的特定函数调用微调模型可显著提高可靠性。(但请避免过早优化!我仍然看到太多团队在进行微调,而他们可能应该在采取这种做法之前花更多时间进行 Prompt。)
3. Model Building(模型构建)
最后,当诸如工具使用或计算机使用之类的能力对开发人员来说似乎很有价值时,主要的 LLM 提供商正在将这些能力直接构建到他们的模型中。尽管 OpenAI o1-preview 的高级推理对消费者有帮助,但我预计它对于智能体推理和规划会更有用。
大多数 LLM 都针对回答问题进行了优化,主要是为了提供良好的消费者体验,我们已经能够将它们「移植」到复杂的智能体工作流程中,以构建有价值的应用程序。为支持智能体中的特定操作而构建 LLM 的趋势将为智能体性能带来很大提升。我相信,在未来几年内,在这个方向上将实现巨大的智能体能力提升。
大模型(LLM)系统性学习路线
大模型时代,火爆出圈的 LLM 大模型让程序员们开始重新评估自己的本领。"AI 会取代那些行业?" "谁的饭碗又将不保了?"等问题热议不断。事实上,抢你饭碗的不是 AI,而是会利用 AI 的人。


