随着大语言模型(LLM)在学术界和工业界的飞速发展,模型架构与训练范式也在不断演进。除了预训练阶段对算力和数据规模的竞争外,后训练(Post-training)中的对齐与微调技术同样关键。本文系统梳理了大模型训练的核心概念、流程差异及关键技术,旨在为读者提供清晰的理论框架。
1. 预训练(Pre-training)
预训练是大模型构建的初始阶段,其核心目标是在大规模无标签数据集上学习通用的语言表示和世界知识。这一过程通常采用自监督学习的方式,让模型通过预测下一个词元(Token)来捕捉数据的统计规律。
1.1 核心目标
- 通用特征学习:模型学习词汇、语法、语义关系以及基本的逻辑推理能力。
- 知识储备:从海量文本中吸收事实性知识和常识,为后续任务奠定基础。
- 广泛适用性:不针对特定下游任务,追求在多种场景下的泛化能力。
1.2 训练数据与流程
预训练数据通常包括网页爬虫数据、书籍、代码库等高质量语料。为了提升效率,现代训练流程常采用多阶段策略:
- 基础预训练:使用混合数据进行初步训练。
- 上下文延长:通过扩展序列长度,增强模型处理长文本的能力。
- 高质量退火:引入更纯净的数据进行微调,减少噪声影响。
2. 后训练(Post-training)
后训练是指在预训练模型的基础上,针对特定任务或应用场景进行的额外训练。这一阶段旨在将通用模型转化为领域专家或符合人类价值观的助手。
2.1 监督微调(SFT)
SFT 是后训练中最常见的方法。通过收集高质量的指令 - 输出对(Instruction-Output Pairs),在'给定前缀预测下一个 Token'的目标上继续训练模型。这使得模型学会遵循人类指令,而非仅仅续写文本。
2.2 人类反馈强化学习(RLHF)
为了进一步提升模型输出的质量与安全性,RLHF 被广泛应用。该流程包含三个步骤:
- 奖励模型训练:收集人类对不同回答的偏好排序,训练一个奖励模型来量化回答质量。
- 策略优化:使用 PPO(Proximal Policy Optimization)等算法,最大化奖励模型的评分。
- 稳定性挑战:相比 SFT,RLHF 计算成本更高且训练稳定性较难控制。
2.3 直接偏好优化(DPO)
作为 RLHF 的替代方案,DPO 通过将偏好优化问题转化为分类问题,避免了显式训练奖励模型和复杂的强化学习循环,显著提升了训练的稳定性和可扩展性。
3. 持续训练(Continue Training)
持续训练是指模型部署后,在新数据流上进行的周期性更新。这主要用于应对数据分布随时间的变化(Data Drift)。
3.1 应用场景
- 实时推荐系统:根据用户最新行为调整模型参数。
- 金融市场预测:适应市场环境的快速变化。
- 客服机器人:学习新的产品知识或用户提问习惯。
3.2 注意事项
持续训练需警惕灾难性遗忘(Catastrophic Forgetting),即模型在学习新数据时丢失旧知识。通常需要通过回放缓冲区或正则化约束来解决。
4. 三大训练阶段对比
| 维度 | 预训练 (Pre-training) | 后训练 (Post-training) | 持续训练 (Continue Training) |
|---|


