LLM 常见归一化方法解析：LayerNorm、RMSNorm 与 DeepNorm | 极客日志

PythonAI算法

LLM 常见归一化方法解析：LayerNorm、RMSNorm 与 DeepNorm

综述由AI生成详细解析了大语言模型中常用的三种归一化技术：LayerNorm、RMSNorm 及 DeepNorm，并对比了 PreLN 与 PostLN 在 Transformer 架构中的位置差异。文章提供了基于 PyTorch 的代码实现，分析了各方法的数学原理、训练稳定性及性能特点，旨在帮助开发者理解不同归一化策略对模型收敛和效果的影响。重点阐述了 RMSNorm 如何通过去除均值计算提升效率，DeepNorm 如何通过调整残差权重支持更深网络，以及 PreLN 在深层训练中相对于 PostLN 的稳定性优势。

孤勇者发布于 2025/2/6更新于 2026/6/122 浏览

LLM 常见归一化方法解析

在大语言模型（LLM）的架构中，归一化（Normalization）技术对于模型的训练稳定性、收敛速度以及最终性能起着至关重要的作用。Transformer 及其变体广泛采用了不同的归一化策略。本文将详细解析 LayerNorm、RMSNorm 和 DeepNorm 的原理、代码实现及适用场景，并对比 PreLN 与 PostLN 在 Transformer 中的位置差异。

1. Layer Norm 的计算公式与实现

Layer Normalization (LayerNorm) 是 Transformer 架构中最基础的归一化方法之一。它对单个样本的特征维度进行归一化，使其均值为 0，方差为 1，然后通过可学习的缩放参数 γ 和平移参数 β 进行调整。

数学原理

给定输入特征 $x$，LayerNorm 的计算过程如下：

$$\mu = \frac{1}{N} \sum_{i=1}^{N} x_i$$ $$\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2$$ $$\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}}$$ $$y_i = \gamma \cdot \hat{x}_i + \beta$$

其中：

$\mu$ 为 $x$ 的均值。
$\sigma$ 为 $x$ 的标准差。
$\gamma$ 和 $\beta$ 是可训练的模型参数，分别控制新分布的方差和均值。
$\epsilon$ 是一个极小值（如 $1e-6$），添加到方差上以避免分母为 0。

PyTorch 代码实现

import torch
import torch.nn as nn

def layer_norm(feature):
    # 获取特征形状
    size = feature.shape
    # 初始化可学习参数 gamma 和 beta
    alpha = nn.Parameter(torch.ones(size[-1]))
    beta = nn.Parameter(torch.ones(size[-1]))
    
    input_dtype = feature.dtype
    # 转换为 float32 以稳定计算
    feature = feature.to(torch.float32)

    # 计算均值和标准差
    mean = feature.mean(-1, keepdim=True)
    std = feature.std(-1, keepdim=True, unbiased=False)
    
    # 归一化并应用缩放平移
    normalized = (feature - mean) / (std + 1e-6)
    output = alpha * normalized + beta
    
    return output.to(input_dtype)

2. RMS Norm 的计算公式与实现

RMSNorm (Root Mean Square Layer Normalization) 是 LayerNorm 的一种简化变体，主要应用于大语言模型（如 LLaMA 系列）。它去除了均值减去的步骤，仅保留缩放部分。

数学原理

RMSNorm 的核心思想是假设数据的均值已经接近 0，或者减去均值带来的收益不如直接对 RMS 进行归一化显著。其公式如下：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

def rms_norm(feature):
    size = feature.shape
    weight = nn.Parameter(torch.ones(size[-1]))
    
    input_dtype = feature.dtype
    feature = feature.to(torch.float32)
    
    # 计算平方均值
    variance = feature.pow(2).mean(-1, keepdim=True)
    
    # 计算 RMS 并归一化
    feature = feature * torch.rsqrt(variance + 1e-6)
    
    return (weight * feature).to(input_dtype)

特性	Post-LN	Pre-LN
位置	残差连接后	残差连接前
梯度稳定性	较差，深层易震荡	较好，梯度范数均衡
收敛速度	较慢	较快
最终性能	理论上限高	略低但更稳定
适用场景	浅层网络	深层大模型

LLM 常见归一化方法解析：LayerNorm、RMSNorm 与 DeepNorm

LLM 常见归一化方法解析

1. Layer Norm 的计算公式与实现

数学原理

PyTorch 代码实现

2. RMS Norm 的计算公式与实现

数学原理

更多推荐文章

相关免费在线工具

PyTorch 代码实现

3. RMS Norm 相比于 Layer Norm 的特点

4. Deep Norm 思路与优点

核心思路

优点

5. LN 在 LLMs 中的不同位置区别

Post-LN (Post-Normalization)

Pre-LN (Pre-Normalization)

结构对比总结

6. 实践建议与总结

更多推荐文章

相关免费在线工具

LLM 常见归一化方法解析：LayerNorm、RMSNorm 与 DeepNorm

LLM 常见归一化方法解析

1. Layer Norm 的计算公式与实现

数学原理

PyTorch 代码实现

2. RMS Norm 的计算公式与实现

数学原理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

PyTorch 代码实现

3. RMS Norm 相比于 Layer Norm 的特点

4. Deep Norm 思路与优点

核心思路

优点

5. LN 在 LLMs 中的不同位置区别

Post-LN (Post-Normalization)

Pre-LN (Pre-Normalization)

结构对比总结

6. 实践建议与总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具