1. AIGC
1.1 单模态
我们大部分人都是从 ChatGPT 问世开始接触 AI 的。刚开始用 ChatGPT 的时候,体验的其实是一种文生文的能力。比如输入一句话,模型生成一段文字回应。
不管是写代码还是写文章,都是 AI 根据输入文字(提示词 Prompt),生成另一段文字。这种让 AI 自动生成内容的能力,就叫做AIGC。
AIGC(Artificial Intelligence Generated Content)——生成式人工智能,是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。AIGC 技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。
简单来说,就是用 AI 自动生成'人类常干的活'。

单模态。
1.2 多模态
随着 AI 的进化,不只是文生文,像文生图、图生文、文生视频、图生视频等也都逐渐支持了,而这种支持多种类型消息的,就被称为多模态。比如现在的 GPT-5。而这些多模态模型,才是真正让 AI 从工具进化成助手的关键。

AIGC 不管单模态还是多模态,有两个天生的限制:
- 不具备实时性:LLM 是离线训练的,一旦训练完成后,它们无法获得新的信息。因此,它们无法回答训练数据时间点之后发生的事件,比如'今天的最新新闻'。
- 不会使用工具:最初的 AIGC 只可以从现在的知识库中获取内容,而不会查询最新的信息,也不能调用 API。
因此,这就引出了两个技术方向,一个叫RAG,一个叫Function Call。
1.3 RAG 技术
RAG(Retrieval-Augmented Generation,检索增强生成)技术,它是一种人工智能(AI)框架,结合了信息检索和生成式语言模型的能力,以提高响应的准确性和相关性。
核心思想:当 LLM 需要回答一个问题或生成文本时,不是仅依赖其内部训练时学到的知识,而是先从一个外部知识库中检索出相关的信息片段,然后将这些检索到的信息与原始问题/指令一起提供给 LLM,让 LLM 基于这些最新、最相关的上下文信息来生成更准确、更可靠、更少幻觉的答案。
通俗的讲:原来模型靠死记硬背,现在它成了会'看资料答题'的开卷考试了。
RAG 的工作原理:
- 检索(Retrieval):系统首先识别用户查询中的关键词,并使用一个检索模型在大型数据集(如文档库、数据库或互联网)中查找与查询最相关的文本片段。
- 增强(Augmented):检索到的信息被整合到原始的用户提示(prompt)中,为语言模型提供额外的上下文信息。
- 生成(Generation):大型语言模型接收到增强后的提示,并利用这些检索到的事实信息来生成一个更丰富、更准确且与用户需求更贴切的回答。






