LLM 大模型基础知识学习总结
一、GPT 模型概述
GPT 全称 Generative Pre-Training Transformer,即三个关键词:生成式、预训练、变换模型。
GPT 模型通过在大量数据上学习到的语言模式,预测下一个字(token),从而生成自然语言文本。其核心架构基于 Transformer,利用自注意力机制(Self-Attention)捕捉长距离依赖关系,实现了高效的并行计算和上下文理解。
二、大模型的 6 大关键技术
-
大模型 (Foundation Model) 类似于人类的大脑,通过海量数据预训练获得通用知识,具备思考和规划任务的基础能力。
-
Prompt(提示词工程) 类似于人类的沟通,通过精心设计的指令让模型完成特定任务。优秀的 Prompt 能显著提升模型输出质量。
-
RAG(检索增强生成) 当模型遇到私有领域知识或实时信息时,先检索外部知识库,再将检索结果与问题组合发送给模型。这解决了模型知识截止和幻觉问题,类似于开卷考试。
-
Fine-tuning(微调) 在预训练模型基础上,使用特定领域的少量数据进行进一步训练,使模型更适应特定任务。类似于系统培训掌握专业技能。
-
Function Calling(函数调用) 允许模型识别用户意图并调用外部工具(如 API、计算器、数据库查询)。例如查询天气时,模型自动调用天气接口而非直接编造数据。
-
Agent(智能体) 结合上述技术,Agent 能够自主规划、记忆、使用工具并执行复杂任务。多个 Agent 可以协作完成项目,如开发流程中的产品、架构、开发、测试等角色协同。
三、知识问答的 3 种主要方式
(1)大模型直答
直接向 LLM 提问,LLM 基于内部参数给出回答。优点是成本低、响应快;缺点是容易产生幻觉,无法获取私有或实时信息。
(2)大模型微调(Fine-Tuning)
将企业私有知识加入通用大模型进行微调,形成私有大模型后再回答问题。优点是领域知识内化;缺点是成本高、更新慢、不可溯源。
(3)大模型 RAG(检索增强生成)
首先对企业的知识库进行检索得到相关的知识片段;然后,将知识片段和原问题组合成新的提示词发给通用大模型得到回答。
3 种方式的效果对比:
| 方式 | 外在幻觉 | 领域知识 | 实时信息 | 可溯源 | 成本 |
|---|---|---|---|---|---|
| 直答 | 多 | 无 | 无 | 无 | 低 |
| 微调 | 中 | 有 | 无 | 无 | 高 |
| RAG | 少 | 有 |


