近年来,人工智能领域涌现诸多新概念新技术,AIGC、MCP 和 Agent 成业界与学术界热门话题。本文将介绍这三个概念,助读者理解其内涵、区别、联系及实际应用价值。
AIGC
AIGC 即 AI Generated Content,指利用人工智能技术(如 GPT、Stable Diffusion 等大模型)自动生成文本、图片等多种内容。2022 年 11 月 30 日,OpenAI 的 ChatGPT(基于 GPT-3.5)上线,引爆 AIGC 热潮。

多模态技术
单模态:只处理一种类型的数据,比如只处理文本(如 GPT-3.5)、只处理图像(如图像识别模型)。
多模态:能够同时处理两种及以上类型的数据。例如,既能理解图片内容,又能理解文本描述,甚至还能结合音频、视频等信息进行综合分析和生成。对应的场景有。
| 场景 | 主流模型 |
|---|---|
| 文生图片 | DALL-E(OpenAI)、Imagen(Google)、Stable Diffusion(Stability AI)、混元文生图(腾讯)等 |
| 文生视频 | Sora(OpenAI)、Stable Video Diffusion(Stability AI) |
| 图生文(图片理解) | GPT-4V(OpenAI)、Gemini(Google)、Qwen-VL(阿里) |
| 图文生视频 | Runway Gen-2(Runway AI)、Stable Video Diffusion(Stability AI) |
| 视频生文(视频理解) | Gemini 1.5 / Gemini Pro Vision(Google) |
RAG 技术
RAG(检索增强生成)技术,是结合信息检索(IR)与大型语言模型(LLM)文本生成能力的人工智能框架。核心思想:LLM 回答问题或生成文本时,不单纯依赖内部训练知识,而是先从外部知识库检索相关信息片段,再将其与原始问题/指令提供给 LLM,让 LLM 基于最新、最相关上下文生成更准确可靠、少幻觉的答案。
大型语言模型虽然拥有海量的知识和强大的语言理解与生成能力,但也存在一些关键限制:
- 知识局限性/过时性:LLM 知识源于训练数据截止日前信息。对之后事件、新研究、最新数据或特定领域细节,可能不知或提供过时信息。
- 幻觉:LLM 遇到知识库中不明确或不存在的信息时,可能'捏造'看似合理但错误或不存在的答案。
- 缺乏来源/可验证性:LLM 通常无法提供答案具体来源,难验证答案准确性。
- 特定领域知识不足:通用 LLM 可能缺对特定公司、组织或个人私有知识库的深入了解。
RAG 正是为了解决这些问题而诞生的。

Agent
'智能体'(Agent)在计算机科学和人工智能领域,指能感知环境、自主决策并行动以实现特定目标的实体或系统。可以是软件程序、机器人硬件或生物实体(如人类或动物),AI 领域通常指软件智能体。
Agent 和 AIGC 最大的区别:
- AIGC 主要以生成式任务为主,而 Agent 是可以通过自主决策能力完成更多通用任务的智能系统。
- 常见 AIGC 系统(文生文、文生图)核心是生成模型,Agent 是集 Function Call 模型与软件工程于一体的复杂系统,需处理模型与外界的信息交互。
- Agent 可以集成 AIGC 能力完成某些特定的任务,也就是 AIGC 可以是 Agent 系统里面的一个子模块。
Agent 最大的特点是,借助 Function Call 模型,可以自主决策使用外接的一些工具来完成特定的任务。







