周鸿祎曾指出,"如果 2023 年是大模型之年,2024 年是垂直应用之年,那 2025 年就是智能体之年!"
就在 1 月 24 日,OpenAI 正式推出其首款 AI Agent 智能体 Operator。该 Operator 可以像真人一样流畅地浏览网页,精准地点击、滚动、填写表单,甚至能独立订机票、电商购物、订餐等相当复杂的任务。不同于传统的虚拟助手,这款 AI 助手真正具备了'行动'的能力,而非仅仅给出建议或答复。
那么什么是 AI Agent 智能体?它是如何发展的,其工作核心是什么?具体上下游产业链如何,有哪些可以关注的公司,今天我们全面剖析一下:

一、定义与区别
1、定义:
Agent(代理)概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。在 AI 领域,被赋予了一层新的含义:具有自主性、反应性、交互性等特征的智能'代理'。能够基于目标和对现状能力的认知,在环境约束中,依赖特定资源和现有工具,找到行动规则并将行动拆解为必要的步骤,自主执行步骤,达成目标。
AI Agent 智能体比较难理解,简单点,agent 就好比你的私人助理。比如你是一家公司的总经理,那 agent 就是你的总经理助理,你只需要给他设定目标和检查结果,其他都可交给他,他能把复杂流程干得出色,还帮您分析给出最优建议,并最终向你汇报。
AI Agent 具备三个核心能力:
(1)独立思考:AI Agent 能够根据给定任务目标和约束条件,进行任务规划和问题拆解,形成执行步骤(即工作流);
(2)自主执行:能够调取各类组件和工具,按照执行步骤依次执行,实现任务目标;
(3)持续迭代:AI Agent 能够自动记录任务目标、工作流和执行结果,基于结果反馈,沉淀专家知识和案例。
2、与 Copilot、LLM、RAG 的联系与区别
(1)LLM(大语言模型)
LLM,Large Language Model,即大语言模型,是基于海量文本数据训练的深度学习模型,能够生成自然语言文本、深入理解文本含义,并处理各种自然语言任务,如文本摘要、问答、翻译等。简单理解是语言的逻辑推理,如我们常见的 ChatGPT、文心一言、豆包、Kimi 等。
Agent 是智能体,LLM 就是智能体的'大脑',核心控制器,能提升 AI Agent 的理解力和泛化能力,使其能更好地处理多种任务和上下文信息。这增强了 AI 代理的自然语言处理能力,从而提供更个性化、连贯的交互体验。
公式表达:AI Agent = LLM x (规划 + 记忆 + 工具 + 行动)
(2)RAG(检索增强生成)
RAG(Retrieval Augmented Generation)即检索增强生成,通过结合大型语言模型与检索机制,显著提升了生成内容的准确性和相关性。其核心在于利用向量数据库存储和检索大量上下文信息,以辅助生成模型在生成文本时做出更明智的决策。这种方法不仅提高了生成内容的质量,还增强了模型的解释性和可控性。
在大模型时代,由于之前训练好的大模型数据没有更新,为了解决 LLM 知识有限的问题,需要把外部的新知识提供给 LLM 进行学习,让它理解之后表达出来,这时候就需要用到 RAG 技术。RAG 通过加入外部数据(如本地知识库、实时数据等)来增强 AI 模型的检索和生成能力,提高信息查询增强过程和生成质量。比如:文心一言的插件服务,支持把实时或者私有化知识提供给 LLM。
(3)Copilot
AI Copilot 是微软推出的一款人工智能助手,基于大模型技术的智能化应用,不仅可以聊天,还能搜索、编辑文档,生成图像等,提升工作效率。AI Copilot 基于微软的 Prometheus 模型,该模型基于 OpenAI 的 GPT-4 构建,具备强大的文本生成和数据处理能力。
Copilot 需要人的指挥;Agent 则是直接面对目标任务,具有自主记忆、推理、规划和执行的全自动能力,因此终极形态的 AI Agent 只需要用户的起始指令和结果的反馈,过程中并不需要人的介入。自主性是 AI Agent 和 AI Copilot 之间最大的区别。AI Copilot 是'副驾驶',只是提供建议而非决策,AI Agent 是'主驾驶'需要真正做出决策并开展行动。
(4)三者的联系
AI Agent 会利用 LLM 的推理能力,把问题进行拆解,形成一个一个的小问题,并定义好这些小问题之间的前后关系,先处理哪个,再处理哪个。然后按照顺序,调用 LLM、RAG 或者外部工具,来解决每一个小问题,直至解决最初的问题。
Copilot 是 Agent 的发展过程和探索,是单纯的 copilot,基于企业自身的决策进行智能辅助、智能决策,还是最终呈现出 Agent 的形态。业界一个形象的比喻,如果说 copilot 是单纯的二维世界,那么 Agent 则是三维空间,从二维到三维,需要的不再是 scaling law 的强大魔力,而更多是业务关系的本质理解,即产业大模型的训练和出发点应该是什么。






