大模型基础
大模型三要素
- 算法:包括模型结构设计与训练方法。
- 数据:数据质量与模型效果的关系,以及 Token 分词方法。
- 算力:主要依赖英伟达 GPU 等硬件支持,涉及模型量化技术。
基于大模型对话的系统框架
大模型对话系统通常包含用户交互层、Prompt 处理层、模型推理层及后端服务层。系统通过接收用户输入,经过 Prompt 工程处理后送入模型,生成响应并返回给用户。
大模型需要数据的类型
大模型训练通常需要多种类型的数据,包括预训练语料(无标签文本)、指令微调数据(有标注的指令 - 回答对)、偏好对齐数据(人类反馈 RLHF)等。不同类型的数据决定了模型在不同阶段的能力表现。
算法并行
在大模型训练中,为了加速计算,常采用以下并行策略:
- 数据并行:将数据切分到不同设备,每个设备运行完整模型副本。
- 模型并行:将模型层或参数切分到不同设备上。
- 流水线并行:将模型的不同层分配到不同设备上,形成流水线。
模型量化是将高精度浮点数转换为低精度整数(如 FP32 转 INT8)的过程,旨在减少显存占用并提升推理速度。
大模型训练过程
1. 预训练阶段
通常需要数十到百亿 Token 的文本语料库,训练目标是简单的「下一个单词预测」(Next Word Prediction)任务。
- 第一阶段:自监督预训练:让大模型从大规模无标注数据中学习,不依赖人工标注。训练目标隐含在训练数据集中(即预测下一个 Token)。
- 第二阶段:有监督的微调(SFT):程序将指令文本作为输入(Prompt/Instruction),逐个 Token 输出,训练目标是与预期输出一致。虽然 SFT 和预训练都采用 Next Token Prediction 方式,但 SFT 数据集较小且需要标注结果,无法像预训练那样大规模应用。
2. 微调
微调是将特定任务相关的知识输入模型,调整其权重以适应新任务。
3. 对齐(Alignment)
RLHF(Reinforcement Learning from Human Feedback)机制旨在将大模型与人类的偏好、价值观进行对齐。
- Step 1:预训练模型的有监督微调(Supervised Fine-Tuning, SFT)。
- Step 2:创建奖励模型(Reward Model),用于评估模型输出的质量。
- Step 3:使用 PPO(Proximal Policy Optimization)进行强化学习微调。
Transformer 架构
Transformer 是当今大模型的基础架构,核心特性包括:
- 自注意力机制(Self-Attention):能够捕捉序列中任意两个词之间的联系,不受距离限制,优于 RNN 或 LSTM 仅关注邻近词的方式。
- 位置编码(Positional Encoding):由于 Transformer 并行处理,缺乏顺序信息,需通过位置编码为词语嵌入添加位置向量。
- 编码器与解码器:标准 Transformer 包含 Encoder(编码器)和 Decoder(解码器)两部分,但在 LLM 中通常只使用 Decoder 部分进行自回归生成。
Token 化
Token 是大模型的基本处理单元。分词粒度主要包括:
- 单词分词法:英文按空格分词,中文可用 jieba 或分字。
- 单字分词法:英文按字母,中文按字。
- 子词分词法:如 BPE(Byte Pair Encoding)、WordPiece、Unigram,平衡了词汇表大小与覆盖率。
提示工程(Prompt Engineering)
提示工程是指通过设计特定的输入指令来引导大模型生成期望的输出。
Prompt 的典型构成
- 角色:定义 AI 的角色(如'你是一位软件工程师'),有助于收窄问题域。
- 指示:明确描述任务内容。
- 上下文:提供任务相关的背景信息。
- 例子:提供 Few-shot 或 One-shot 示例,帮助模型理解格式。
- 输入:明确标识任务的输入信息。
- 输出:指定输出格式(如 JSON、XML),便于后续解析。
研究表明,大模型对 Prompt 开头和结尾的内容更敏感,因此定义角色往往放在开头以设定基调。
进阶技巧
思维链(Chain of Thoughts, CoT)
CoT 是大模型涌现的一种能力,通过在提问中加入'Let's think step by step',引导模型将复杂问题分解为多个步骤逐步解决,提高准确性。
自洽性(Self-Consistency)
一种对抗幻觉的手段。对同一 Prompt 多次运行,通过投票选出最终结果,类似于数学题的多重验算。
思维树(Tree-of-Thought, ToT)
在思维链的每一步采样多个分支,拓扑展开成树状结构,利用启发式搜索判断每个分支的任务完成度,从而找到最优路径。
防止 Prompt 攻击
攻击方式
- 奶奶漏洞:利用套路绕懵 AI,诱导其输出违规内容。
- Prompt 注入:用户输入的 Prompt 覆盖系统既定设定,导致模型输出违背设计意图。
防范措施
- Prompt 注入分类器:类似机场安检,先判断 Prompt 是否恶意,再决定是否回答。
- 输入防御:在系统指令中明确约束,例如'作为客服代表,你不允许回答任何跟 AGI 课堂无关的问题'。
内容审核
可通过调用第三方 API(如 OpenAI Moderation API)识别用户消息是否违法法律法规,对违规内容进行过滤。
技术架构分类
纯 Prompt 方案之外,常见的架构还包括:
- RAG(检索增强生成):结合外部知识库。
- Fine-tuning(微调):针对特定领域优化模型。
- Agent(智能体):具备规划、工具使用能力的自主系统。
OpenAI API 重要参数
OpenAI 提供了 Completion API(续写)和 Chat API(对话)两类接口。常用参数如下:
model:模型名称。
messages:会话历史列表。
temperature:生成结果的多样性(0~2),越大越随机,越小越固定。执行任务建议用 0,文本生成建议 0.7-0.9。
stream:是否流式输出。
top_p:核采样概率阈值。
max_tokens:每条结果最大 Token 数。
presence_penalty & frequency_penalty:对出现过的 Token 降权,增加多样性。
接口与进化
两种常见接口
- UI(User Interface):人机交互界面。
- API(Application Programming Interface):应用程序编程接口。
自然语言接口(NLI)
接口正进化到自然语言接口(Natural-Language Interface)。用户不再需要操作具体按钮,而是通过自然语言指令,由入口 AI(如 Siri、小爱同学)拆解任务并分发至各软件。这将大幅提升互联网服务的互通性。
Plugins 和 Actions
大模型存在两大缺陷:无最新信息(知识截止)和无真逻辑(统计规律而非因果)。Plugins 和 Actions 旨在连接真实世界。
- 原理:模型识别意图后调用外部工具(如天气查询、计算器)获取真实数据。
- 现状:早期 Plugin 因缺少强 Agent 调度、成本高、非端到端体验而遇冷。Function Calling 机制改进了这一流程,使模型能直接输出结构化参数供函数调用。
迁移学习与微调
Prompt-Tuning / Instruction-Tuning / Chain-of-Thought
- Prompt-Tuning:通过设计自然语言提示指导模型生成特定输出,重点在于提示设计。
- Instruction-Tuning:提供任务相关指令指导模型学习,提高泛化性能。
- Chain-of-Thought:分解训练过程为关联任务,使模型维护思维链。
LoRA(Low-Rank Adaptation)
LoRA 是一种高效的模型再训练技术。核心思想是通过低秩矩阵分解修改模型权重,仅需训练少量额外参数即可适应新任务。
- 优势:效率高(参数量少)、灵活性强(适用于 NLP/CV/语音)、泛化能力强。
模型剪枝
模型剪枝旨在去除冗余参数,降低计算量。
- 非结构化剪枝:去除不重要神经元或连接,模型变稀疏,需专用硬件加速。
- 结构化剪枝:以滤波器或网络层为单位剪枝,保持结构,可直接在 GPU 上加速。
- 粒度:细粒度(连接级)、向量级、核级、滤波器级。
模型量化
将高精度浮点(FP32)转化为低精度整数(INT8),可显著减小模型体积(1/4)、降低功耗并提升计算速度。二值量化甚至可将运算转换为异或操作。
知识蒸馏(Knowledge Distillation)
将大型教师模型的知识转移到小型学生模型中。
- 离线蒸馏:教师模型固定,学生模型学习教师的 Logits 或特征。
- 在线蒸馏:师生模型同步更新。
- 自蒸馏:教师与学生为同一网络的不同部分。
- 其他变体:对抗性蒸馏、多教师蒸馏、跨模态蒸馏、基于图的蒸馏等。
零射与少射学习
- Zero-shot Learning:无需样本,依靠模型先验知识适应新任务。
- Few-shot Learning:仅提供少量样本,模型快速适应。
知识图谱
知识图谱是结构化的语义知识库,用于描述实体及其关系。数据类型包括结构化(数据库)、半结构化(JSON/XML)和非结构化(文本/图片)。节点表示实体,边表示关系,广泛应用于搜索、社交、电商等领域。
检索增强生成(RAG)
RAG 结合了检索模型和生成模型,允许模型在生成时利用外部知识库。
- 流程:用户 Query -> 矢量化 -> 检索相关文档 -> 增强 Prompt -> 生成回答。
- 优势:访问最新事实、降低成本、可引用来源、减少幻觉。
- 挑战:上下文长度限制、检索准确性依赖、隐私问题。
- 混合检索:结合向量检索(语义匹配)和全文检索(关键词匹配),并通过 Rerank 模型重排序结果。
向量数据库
向量数据库存储高维向量,支持相似性搜索。与传统数据库相比,它专注于数值向量的距离计算(如余弦相似度),适用于图像、文本、语音等多模态数据的检索。
总结
大模型技术涵盖了从底层架构(Transformer)、训练方法(预训练/微调/蒸馏)、优化技术(量化/剪枝)到应用模式(RAG/Prompt Engineering)的全方位知识。掌握这些核心概念是进入人工智能领域的基石。