大模型基础
大模型三要素
- 算法:包括模型结构设计与训练方法。
- 数据:数据质量与模型效果的关系,以及 Token 分词方法。
- 算力:主要依赖英伟达 GPU 等硬件支持,涉及模型量化技术。
基于大模型对话的系统框架
大模型对话系统通常包含用户交互层、Prompt 处理层、模型推理层及后端服务层。系统通过接收用户输入,经过 Prompt 工程处理后送入模型,生成响应并返回给用户。
大模型需要数据的类型
大模型训练通常需要多种类型的数据,包括预训练语料(无标签文本)、指令微调数据(有标注的指令 - 回答对)、偏好对齐数据(人类反馈 RLHF)等。不同类型的数据决定了模型在不同阶段的能力表现。
算法并行
在大模型训练中,为了加速计算,常采用以下并行策略:
- 数据并行:将数据切分到不同设备,每个设备运行完整模型副本。
- 模型并行:将模型层或参数切分到不同设备上。
- 流水线并行:将模型的不同层分配到不同设备上,形成流水线。
模型量化是将高精度浮点数转换为低精度整数(如 FP32 转 INT8)的过程,旨在减少显存占用并提升推理速度。
大模型训练过程
1. 预训练阶段
通常需要数十到百亿 Token 的文本语料库,训练目标是简单的「下一个单词预测」(Next Word Prediction)任务。
- 第一阶段:自监督预训练:让大模型从大规模无标注数据中学习,不依赖人工标注。训练目标隐含在训练数据集中(即预测下一个 Token)。
- 第二阶段:有监督的微调(SFT):程序将指令文本作为输入(Prompt/Instruction),逐个 Token 输出,训练目标是与预期输出一致。虽然 SFT 和预训练都采用 Next Token Prediction 方式,但 SFT 数据集较小且需要标注结果,无法像预训练那样大规模应用。
2. 微调
微调是将特定任务相关的知识输入模型,调整其权重以适应新任务。
3. 对齐(Alignment)
RLHF(Reinforcement Learning from Human Feedback)机制旨在将大模型与人类的偏好、价值观进行对齐。
- Step 1:预训练模型的有监督微调(Supervised Fine-Tuning, SFT)。
- Step 2:创建奖励模型(Reward Model),用于评估模型输出的质量。
- Step 3:使用 PPO(Proximal Policy Optimization)进行强化学习微调。
Transformer 架构
Transformer 是当今大模型的基础架构,核心特性包括:
- 自注意力机制(Self-Attention):能够捕捉序列中任意两个词之间的联系,不受距离限制,优于 RNN 或 LSTM 仅关注邻近词的方式。
- 位置编码(Positional Encoding):由于 Transformer 并行处理,缺乏顺序信息,需通过位置编码为词语嵌入添加位置向量。
- 编码器与解码器:标准 Transformer 包含 Encoder(编码器)和 Decoder(解码器)两部分,但在 LLM 中通常只使用 Decoder 部分进行自回归生成。
Token 化
Token 是大模型的基本处理单元。分词粒度主要包括:
- 单词分词法:英文按空格分词,中文可用 jieba 或分字。
- 单字分词法:英文按字母,中文按字。
- :如 BPE(Byte Pair Encoding)、WordPiece、Unigram,平衡了词汇表大小与覆盖率。


