背景
在人工智能领域,我们通常将 AI 大模型视为人类的大脑。调用 AI 大模型,相当于调用一个具备理解能力的智能体。它懂人话、说人话,并能直接给出结果,但受限于训练数据的截止时间和概率生成特性,其结果不一定完全正确或符合特定业务场景。
为了弥补大模型的不足,通过 RAG(检索增强生成)、Agent(智能体)、知识库、向量数据库、知识图谱等技术手段,可以实现更精准、可控的 AI 应用,这也是通向 AGI(通用人工智能)的重要路径。这些技术之间既有独立的功能定位,又有紧密的协作关系。下文将对它们进行详细剖析。
大语言模型(LLM)
大语言模型(Large Language Model, LLM)是通过深度学习方法,利用庞大的文本数据集进行训练的机器学习模型。它基于 Transformer 架构,具备生成自然流畅的语言文本以及准确理解语言文本深层语义的能力。
核心能力
- 文本生成:能够续写文章、创作代码、撰写邮件等。
- 语义理解:能够识别情感、意图、实体关系,完成文本分类和问答任务。
- 逻辑推理:具备一定的数学计算和逻辑推导能力,尽管在处理复杂多步推理时仍可能出错。
- 多模态处理:现代大模型逐渐支持图文对齐,能够理解图片内容并生成描述。
发展现状
过去几年中,大模型参数量从数十亿激增至万亿级别。这种规模的增长使得模型在捕捉人类语言的微妙差异上更为精准,能够深入洞察人类语言的复杂本质。随着 OpenAI GPT-4o 等模型的发布,大模型在高效吸纳新知识、有效分解复杂任务方面取得了显著进步。
大语言模型拥有推理能力,它是所有上层 AI 应用的基石。然而,原生大模型存在'幻觉'问题(即一本正经地胡说八道),且缺乏私有数据的支持,因此需要其他技术辅助。
检索增强生成(RAG)
RAG(Retrieval-Augmented Generation)技术是一种集成检索与生成双重能力的知识增强方案,旨在应对复杂多变的信息查询和生成挑战。
工作原理
RAG 的核心在于将先进的向量数据库与大模型的智能问答能力完美结合。其流程通常包含以下步骤:
- 索引构建:将外部知识库(如企业文档、本地数据)中的信息经过清洗、分块(Chunking)、向量化(Embedding)后,存储在向量数据库中。
- 检索:当接收到用户问题时,系统首先将问题转化为向量,并在向量数据库中检索出最相关的知识片段。
- 生成:将检索到的知识片段作为上下文(Context),与大模型的 Prompt 结合,共同孕育出精确而全面的回答。
优势
- 降低幻觉:通过引入真实的外部数据,减少模型编造事实的概率。
- 时效性:无需重新训练模型即可更新知识库,适应最新信息。
- 可解释性:可以追溯答案的来源文档,增加可信度。
总之,RAG 技术本质上是为大语言模型注入了新的、私有的知识。
函数调用(Function Calling)
大模型要实现精确的函数调用(Function Calling),需要具备理解能力和逻辑能力。理解能力是对用户的 Prompt 提示词识别意图,逻辑能力则是根据意图选择需要调用的函数。
执行流程
- 意图识别:大模型分析用户输入,判断是否需要调用外部工具或 API。
- 参数提取:如果确定调用,模型需从对话中提取函数的必要参数(如时间、地点、ID 等)。
- API 注册:开发者将函数 API 的元信息(名称、描述、参数 Schema)注册给大模型,让模型学习函数集合。
- 执行与反馈:大模型输出结构化的 JSON 格式调用指令,由后端 Agent 负责具体执行。执行结果返回给大模型,大模型进一步加工处理后返回给用户最终结果。
应用场景
- 实时数据查询:如查询天气、股票价格、数据库记录。
- 操作执行:如发送邮件、创建日历事件、控制智能家居设备。


