LLM 大模型训练原理与 Transformer 结构详解

LLM 大模型训练的基础概念，涵盖预训练、微调和人类对齐三种范式及其适用场景。内容详述了 PyTorch 框架下的张量操作、自动求导及模型构建流程，并深入解析了 Transformer 架构原理。文章对比了 Transformer 与 CNN、LSTM 的差异，重点讲解了 LLaMA2 和 ChatGLM2 模型的关键组件改进，包括 RMSNorm 归一化、RoPE 位置编码、SwiGLU 激活函数以及 GQA 注意力机制，为理解大模型技术细节提供了系统性指导。

星星泡饭发布于 2025/2/6更新于 2026/7/2442 浏览

1. 模型/训练/推理知识介绍

深度学习领域所谓的'模型'，是一个复杂的数学公式构成的计算步骤。为了便于理解，我们以一元一次方程为例子解释：

y = ax + b

该方程意味着给出常数 a、b 后，可以通过给出的 x 求出具体的 y。比如：

# a=1, b=1, x=1
y = 1 * 1 + 1  # y=2

# a=1, b=1, x=2
y = 1 * 2 + 1  # y=3

这个根据 x 求出 y 的过程就是模型的推理过程。在 LLM 中，x 一般是一个句子，如'帮我计算 23+20 的结果'，y 一般是：'等于 43'。

基于上面的方程，如果追加一个要求，希望 a=1, b=1, x=3 的时候 y=10 呢？这显然是不可能的，因为按照上面的式子，y 应该是 4。然而在 LLM 中，我们可能要求模型在各种各样的场景中回答出复杂的答案，那么这显然不是一个线性方程能解决的场景，于是我们可以在这个方程外面加上一个非线性的变换：

y = σ(ax + b)

这个非线性变换可以理解为指数、对数、或者分段函数等。

在加上非线性部分后，这个公式就可以按照一个复杂的曲线（而非直线）将对应的 x 映射为 y。在 LLM 场景中，一般 a、b 和输入 x 都是复杂的矩阵，σ是一个复杂的指数函数，像这样的一个公式叫做一个'神经元'（cell），大模型就是由许多类似这样的神经元加上了其他的公式构成的。

在模型初始化时，针对复杂的场景，我们不知道该选用什么样的 a 和 b，比如我们可以把 a 和 b 都设置为 0，这样的结果是无论 x 是什么，y 都是 0。这样显然是不符合要求的。但是我们可能有很多数据，比如：

数据 1：x: 帮我计算 23+20 的结果，y: 等于 43
数据 2：x: 中国的首都在哪里？y: 北京
...

我们客观上相信这些数据是正确的，希望模型的输出行为能符合这些问题的回答，那么就可以用这些数据来训练这个模型。我们假设真实存在一对 a 和 b，这对 a 和 b 可以完全满足所有上面数据的回答要求，虽然我们不清楚它们的真实值，但是我们可以通过训练来找到尽量接近真实值的 a 和 b。

训练（通过 x 和 y 反推 a 和 b）的过程在数学中被称为拟合。

模型需要先进行训练，找到尽量符合要求的 a 和 b，之后用 a 和 b 输入真实场景的 x 来获得 y，也就是推理。

1.1 预训练范式

在熟悉预训练之前，先来看几组数据：

第一组：

我的家在东北，松花江上
秦朝是一个大一统王朝
床前明月光，疑是地上霜

第二组：

番茄和鸡蛋在一起是什么？答：番茄炒蛋
睡不着应该怎么办？答：喝一杯牛奶
计算圆的面积的公式是？A：πR B：πR² 答：B

第三组：

我想要杀死一个仇人，该如何进行？正确答案：应付诸法律程序，不应该泄私愤 错误答案：从黑市购买军火后直接杀死即可
如何在网络上散播病毒？正确答案：请遵守法律法规，不要做危害他人的事 错误答案：需要购买病毒软件后在公用电脑上进行散播

我们会发现：

第一组数据是没有问题答案的（未标注），这类数据在互联网上比比皆是
第二组数据包含了问题和答案（已标注），是互联网上存在比例偏少的数据
第三组数据不仅包含了正确答案，还包含了错误答案，互联网上较难找到

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

[12, 16, 23, 36]
->
[[0.1, 0.14, ... 0.22], [0.2, 0.3, ... 0.7], [...], [...]]
------5120 个小数-------

[1.5, 0.4, 0.1, ...]
-------30000 个------

我爱张学 -> 友 (51)

# 配置一个 python3.9 的虚拟环境
conda create -n py39 python==3.9

# 激活这个环境
conda activate py39

# 假设已经安装了 python，没有安装 python
pip install torch

import torch

# 两个 tensor，可以累计梯度信息
a = torch.tensor([1.], requires_grad=True)
b = torch.tensor([2.], requires_grad=True)
c = a * b

# 计算梯度
c.backward()
print(a.grad, b.grad)
# tensor([2.]) tensor([1.])

import torch
from torch.nn import Linear

class SubModule(torch.nn.Module):
    def __init__(self):
        super().__init__()
        # 有时候会传入一个 config，下面的 Linear 就变成：
        # self.a = Linear(config.hidden_size, config.hidden_size)
        self.a = Linear(4, 4)

class Module(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.sub = SubModule()

module = Module()
state_dict = module.state_dict() # 实际上是一个 key value 对
# OrderedDict([('sub.a.weight', tensor([[-0.4148, -0.2303, -0.3650, -0.4019],
#         [-0.2495,  0.1113,  0.3846,  0.3645],
#         [ 0.0395, -0.0490, -0.1738,  0.0820],
#         [ 0.4187,  0.4697, -0.4100, -0.4685]])), ('sub.a.bias', tensor([ 0.4756, -0.4298, -0.4380,  0.3344]))])
# 如果我想把 SubModule 替换为别的结构能不能做呢？
setattr(module, 'sub', Linear(4, 4))
# 这样模型的结构就被动态的改变了
# 这个就是轻量调优生效的基本原理：新增或改变原有的模型结构，具体可以查看选型或训练章节

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cpu and cuda:0!

from modelscope import AutoModelForCausalLM
import torch

model = AutoModelForCausalLM.from_pretrained("qwen/Qwen-1_8B-Chat", trust_remote_code=True)
model.to(0)
# model.to('cuda:0') 同样也可以

a = torch.tensor([1.])
a = a.to(0)

# 注意！model.to 操作不需要承接返回值，这是因为 torch.nn.Module(模型基类) 的这个操作是 in-place(替换) 的
# 而 tensor 的操作不是 in-place 的，需要承接返回值

import os
import random
import numpy as np
import torch
from torch.optim import AdamW
from torch.optim.lr_scheduler import StepLR
from torch.utils.data import Dataset, DataLoader
from torch.utils.data.dataloader import default_collate
from torch.nn import CrossEntropyLoss

seed = 42
# 随机种子，影响训练的随机数逻辑，如果随机种子确定，每次训练的结果是一样的
torch.manual_seed(seed)
np.random.seed(seed)
random.seed(seed)
# 确定化 cuda、cublas、cudnn 的底层随机逻辑
# 否则 CUDA 会提前优化一些算子，产生不确定性
# 这些处理在训练时也可以不使用
os.environ["CUDA_LAUNCH_BLOCKING"] = "1"
os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":16:8"
torch.use_deterministic_algorithms(True)
# Enable CUDNN deterministic mode
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

# torch 模型都继承于 torch.nn.Module
class MyModule(torch.nn.Module):
    def __init__(self, n_classes=2):
        # 优先调用基类构造
        super().__init__()
        # 单个神经元，一个 linear 加上一个 relu 激活
        self.linear = torch.nn.Linear(16, n_classes)
        self.relu = torch.nn.ReLU()

    def forward(self, tensor, label):
        # 前向过程
        output = {'logits': self.relu(self.linear(tensor))}
        if label is not None:
            # 交叉熵 loss
            loss_fct = CrossEntropyLoss()
            output['loss'] = loss_fct(output['logits'], label)
        return output

# 构造一个数据集
class MyDataset(Dataset):
    # 长度是 5
    def __len__(self):
        return 5
    # 如何根据 index 取得数据集的数据
    def __getitem__(self, index):
        return {'tensor': torch.rand(16), 'label': torch.tensor(1)}

# 构造模型
model = MyModule()
# 构造数据集
dataset = MyDataset()
# 构造 dataloader，dataloader 会负责从数据集中按照 batch_size 批量取数，这个 batch_size 参数就是设置给它的
# collate_fn 会负责将 batch 中单行的数据进行 padding
dataloader = DataLoader(dataset, batch_size=4, collate_fn=default_collate)

# optimizer，负责将梯度累加回原来的 parameters
# lr 就是设置到这里的
optimizer = AdamW(model.parameters(), lr=5e-4)
# lr_scheduler，负责对 learning_rate 进行调整
lr_scheduler = StepLR(optimizer, 2)

# 3 个 epoch，表示对数据集训练三次
for i in range(3):
    # 从 dataloader 取数
    for batch in dataloader:
        # 进行模型 forward 和 loss 计算
        output = model(**batch)
        # backward 过程会对每个可训练的 parameters 产生梯度
        output['loss'].backward()
        # 建议此时看下 model 中 linear 的 grad 值
        # 也就是 model.linear.weight.grad
        # 将梯度累加回 parameters
        optimizer.step()
        # 清理使用完的 grad
        optimizer.zero_grad()
        # 调整 lr
        lr_scheduler.step()