从零开始训练大语言模型完整流程指南 | 极客日志

PythonAI算法

从零开始训练大语言模型完整流程指南

梳理了大语言模型从预训练到指令微调的完整技术流程。涵盖词表构建（Tokenizer）、预训练策略（数据采样、清洗）、指令微调方法（Self Instruction）及评测体系（C-Eval、GPT-4 Judge）。补充了强化学习对齐（RLHF）与模型部署优化环节，为开发者提供系统化的大模型训练实战参考。

王者发布于 2025/2/7更新于 2026/7/2144 浏览

从零开始训练大语言模型完整流程指南

ChatGPT 面世以来，各种大模型相继出现。那么大模型到底是如何训练的呢？在这篇文章中，我们将尽可能详细地梳理一个完整的 LLM 训练流程，包括模型预训练（Pretrain）、Tokenizer 训练、指令微调（Instruction Tuning）以及强化学习对齐（RLHF）等环节。

1. 预训练阶段（Pretraining Stage）

工欲善其事，必先利其器。

当前，不少工作选择在一个较强的基座模型上进行微调，且通常效果不错（如 Alpaca、Vicuna 等）。这种成功的前提在于：预训练模型和下游任务的差距不大，预训练模型中通常已经包含微调任务中所需要的知识。

但在实际情况中，我们通常会遇到一些问题，使得我们无法直接使用一些开源 backbone：

语言不匹配： 大多数开源基座对中文的支持都不太友好，例如 Llama、MPT、Falcon 等，这些模型在英文上效果都很优秀，但在中文上却差强人意。
专业知识不足： 当我们需要一个专业领域的 LLM 时，预训练模型中的知识就尤为重要。由于大多数预训练模型都是在通用训练语料上进行学习，对于一些特殊领域（金融、法律等）中的概念和名词无法具备很好的理解。我们通常需要在训练语料中加入一些领域数据（如轩辕 2.0），以帮助模型在指定领域内获得更好的效果。

基于上述原因，我们在进行 SFT 步骤之前，先来看看预训练任务是如何做的。

1.1 Tokenizer Training

在进行预训练之前，我们需要先选择一个预训练的模型基座。一个较为普遍的问题是：大部分优秀的语言模型都没有进行充分的中文预训练，因此，许多工作都尝试将在英语上表现比较优秀的模型用中文语料进行二次预训练，期望其能够将英语上的优秀能力迁移到中文任务中来。

但在进行正式的训练之前，我们还有一步很重要的事情去做：词表扩充。

通俗来讲，tokenizer 的目的就是将一句话进行切词，并将切好词的列表喂给模型进行训练。例如：

输入句子 >>> 你好世界
切词结果 >>> ['你', '好', '世', '界']

通常，tokenizer 有 2 种常用形式：WordPiece 和 BPE。

WordPiece

WordPiece 很好理解，就是将所有的「常用字」和「常用词」都存到词表中，当需要切词的时候就从词表里面查找即可。

如上图所示，大名鼎鼎的 BERT 就使用的这种切词法。当我们输入句子：你好世界，BERT 就会依次查找词表中对应的字，并将句子切成词的组合。

当遇到词表中不存在的字词时，tokenizer 会将其标记为特殊的字符 [UNK]：

Out of Vocabulary（OOV）情况。

Byte Pair Encoder（BPE）

WordPiece 的方式很有效，但当字词数目过于庞大时这个方式就有点难以实现了。对于一些多语言模型来讲，要想穷举所有语言中的常用词（穷举不全会造成 OOV），既费人力又费词表大小，为此，人们引入另一种方法：BPE。

BPE 不是按照中文字词为最小单位，而是按照 unicode 编码作为最小粒度。对于中文来讲，一个汉字是由 3 个 unicode 编码组成的，因为平时我们不会拆开来看（毕竟中文汉字是不可拆分的），所以我一开始对这个概念也不太熟悉。

我们来看看 LLaMA 的 tokenizer（BPE）对中文是如何进行 encode 的：

可以看到，「编码」两个字能够被正常切成 2 个字，但「待」却被切成了 3 个 token，这里的每个 token 就是 1 个 unicode 编码。

通过 token 查找功能，我们可以发现「编」「码」在词表中，但「待」不在词表中。但任何 1 个汉字都是可以由 unicode 表示（只是组合顺序不同），因此「待」就被切成了 3 个 token。

通常在模型训练不够充足的时候，模型会输出一些乱码（不合法的 unicode 序列）：游泳池是杭州西湖的一个游泳池，。

词表扩充

为了降低模型的训练难度，人们通常会考虑在原来的词表上进行「词表扩充」，也就是将一些常见的汉字 token 手动添加到原来的 tokenizer 中，从而降低模型的训练难度。

我们对比 Chinese-LLaMA 和 LLaMA 之间的 tokenizer 的区别：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

probs = (
    torch.nn.functional.softmax(    
        torch.tensor(        
            [
                logits[self.tokenizer.encode(
                    "A", bos=False, eos=False)[0]],
                logits[self.tokenizer.encode(
                    "B", bos=False, eos=False)[0]],
                logits[self.tokenizer.encode(
                    "C", bos=False, eos=False)[0]],
                logits[self.tokenizer.encode(
                    "D", bos=False, eos=False)[0]],
            ]        
        ),        
        dim=0,    
    ).detach().cpu().numpy()
)
pred = {0: "A", 1: "B", 2: "C", 3: "D"}[np.argmax(probs)]           # 将概率最大的选项作为模型输出的答案

{
    "instruction": "Arrange the words in the given sentence to form a grammatically correct sentence.",    
    "input": "quickly the brown fox jumped",    
    "output": "The quick brown fox jumped quickly."
}

{
    "instruction": "判断给定的文章是否符合语法规则。如果不符合，请提供修改建议。下面是一篇文章的开头：'为了探讨这个主题，本文将提供一系列数据和实例，以证明这一观点。'",    
    "input": "",    
    "output": "这个开头符合语法规则。"
}

从零开始训练大语言模型完整流程指南

从零开始训练大语言模型完整流程指南

1. 预训练阶段（Pretraining Stage）

1.1 Tokenizer Training

WordPiece

Byte Pair Encoder（BPE）

词表扩充

更多推荐文章

相关免费在线工具

1.2 Language Model PreTraining

数据源采样

数据预处理

模型结构

1.3 数据集清理

1.4 模型效果评测

C-Eval

2. 指令微调阶段（Instruction Tuning Stage）

2.1 Self Instruction

2.2 开源数据集整理

Alpaca

BELLE

2.3 模型的评测方法

3. 强化学习与人类反馈（RLHF）

3.1 奖励模型训练

3.2 PPO 优化

3.3 DPO 替代方案

4. 模型部署与优化

4.1 量化（Quantization）

4.2 推理引擎

4.3 服务化

5. 总结

更多推荐文章

相关免费在线工具

从零开始训练大语言模型完整流程指南

从零开始训练大语言模型完整流程指南

1. 预训练阶段（Pretraining Stage）

1.1 Tokenizer Training

WordPiece

Byte Pair Encoder（BPE）

词表扩充

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2 Language Model PreTraining

数据源采样

数据预处理

模型结构

1.3 数据集清理

1.4 模型效果评测

C-Eval

2. 指令微调阶段（Instruction Tuning Stage）

2.1 Self Instruction

2.2 开源数据集整理

Alpaca

BELLE

2.3 模型的评测方法

3. 强化学习与人类反馈（RLHF）

3.1 奖励模型训练

3.2 PPO 优化

3.3 DPO 替代方案

4. 模型部署与优化

4.1 量化（Quantization）

4.2 推理引擎

4.3 服务化

5. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具