从零实现 LLaMA 架构：构建轻量级大语言模型 | 极客日志

PythonAI算法

从零实现 LLaMA 架构：构建轻量级大语言模型

从零开始拆解 LLaMA 大语言模型的核心设计，通过 Python 和 PyTorch 实现了一个轻量级的 LLaMA-like 模型。内容涵盖 RMSNorm 替代 LayerNorm、SwiGLU 激活函数、旋转位置编码（RoPE）、Pre-Norm 架构等关键优化点。文章详细解析了配置模块、基础层、注意力模块及 Transformer 块的代码实现，并提供了运行测试与结果解读。旨在帮助开发者理解大模型的底层原理，为后续训练、优化和部署奠定基础。

DevOpsTeam发布于 2026/4/6更新于 2026/7/2453 浏览

大语言模型（LLM）的爆发式发展让 LLaMA 系列模型成为开源社区的焦点 ——Meta 推出的 LLaMA 以简洁的架构设计和高效的性能，成为很多自研大语言模型的基准。不同于传统 Transformer，LLaMA 做了诸多关键优化：用 RMSNorm 替代 LayerNorm、SwiGLU 激活的 FeedForward、旋转位置编码（RoPE）、Pre-Norm 架构等。

本文将从零开始，拆解 LLaMA 的核心设计，并通过可运行的代码实现一个轻量级的 LLaMA-like 模型，帮助你理解大模型的底层原理。

一、LLaMA 核心设计亮点

先梳理 LLaMA 相对于经典 Transformer 的核心改进（也是本文实现的核心），为后续代码解析铺垫：

优化点	传统 Transformer	LLaMA 设计	优势
归一化层	LayerNorm（含均值中心化 + 偏置）	RMSNorm（仅均方根归一化）	计算更快，训练稳定性相当
前馈网络激活	ReLU/GELU + 单线性层	SwiGLU（门控激活）	提升模型表达能力
位置编码	绝对位置编码	旋转位置编码（RoPE）	更好的长序列泛化能力
归一化位置	Post-Norm（注意力 / FFN 后）	Pre-Norm（注意力 / FFN 前）	训练更稳定，梯度传播更顺畅
线性层偏置	带 bias	无 bias	减少参数规模，提升推理速度

二、代码架构总览

我们将模型拆解为 5 个职责清晰的核心文件，从基础组件到完整模型再到测试，层层递进：

文件名称	核心功能
`config.py`	模型超参数管理（类型安全的 dataclass）
`layers.py`	基础层实现（RMSNorm、SwiGLU FeedForward、RoPE）
`attention.py`	因果自注意力层（集成 RoPE+Flash Attention）
`model.py`	Transformer 块封装 + 完整 LLM 模型
`main.py`	前向传播测试 + 自回归文本生成

三、逐模块解析代码

3.1 配置模块：`config.py`

模型超参数是大模型的'骨架'，用dataclass可以简洁、类型安全地管理这些参数，方便后续扩展和修改：

from dataclasses import dataclass

@dataclass
class LLMConfig:
    vocab_size: int = 32000  
    hidden_size:  =   
    num_layers:  =      
    num_heads:  =       
    intermediate_size:  =   
    max_seq_len:  =   
    rms_norm_eps:  =   
    dropout:  =

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# RMSNorm 实现
import torch
import torch.nn as nn
import torch.nn.functional as F

class RMSNorm(nn.Module):
    """均方根归一化 (Root Mean Square Normalization)"""
    def __init__(self, dim: int, eps: float = 1e-5):
        super().__init__()
        self.eps = eps
        self.weight = nn.Parameter(torch.ones(dim))  # 可学习的缩放权重γ

    def _norm(self, x):
        # 计算最后一维的均方根，keepdim 保证广播维度匹配
        return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.eps)

    def forward(self, x):
        # 转为 float 计算避免精度问题，再转回原类型
        output = self._norm(x.float()).type_as(x)
        return output * self.weight

# FeedForward (SwiGLU) 实现
class FeedForward(nn.Module):
    """采用 SwiGLU 激活的基于门控的前馈神经网络"""
    def __init__(self, config):
        super().__init__()
        self.w1 = nn.Linear(config.hidden_size, config.intermediate_size, bias=False)
        self.w2 = nn.Linear(config.intermediate_size, config.hidden_size, bias=False)
        self.w3 = nn.Linear(config.hidden_size, config.intermediate_size, bias=False)

    def forward(self, x):
        # SwiGLU 核心逻辑：(Swish(xW1) * xW3) W2
        return self.w2(F.silu(self.w1(x)) * self.w3(x))

# RoPE 实现
def precompute_freqs_cis(dim: int, end: int, theta: float = 10000.0):
    """预计算 RoPE 的频率矩阵（复数形式）"""
    # 计算基础频率：1 / theta^(2i/dim)，i 为维度索引
    freqs = 1.0 / (theta ** (torch.arange(0, dim, 2)[: (dim // 2)].float() / dim))
    # 生成时间步（序列位置）t 的外积，shape: [end, dim//2]
    t = torch.arange(end, device=freqs.device)
    freqs = torch.outer(t, freqs).float()
    # 转为复数（极坐标）：模为 1，角度为 freqs
    freqs_cis = torch.polar(torch.ones_like(freqs), freqs)
    return freqs_cis

def apply_rotary_emb(xq: torch.Tensor, xk: torch.Tensor, freqs_cis: torch.Tensor):
    """将 RoPE 应用到 Query/Key 上"""
    # 将 Q/K 重塑为复数形式：[B, T, n_heads, head_dim] → [B, T, n_heads, head_dim//2, 2]
    xq_ = torch.view_as_complex(xq.float().reshape(*xq.shape[:-1], -1, 2))
    xk_ = torch.view_as_complex(xk.float().reshape(*xk.shape[:-1], -1, 2))
    # 广播频率矩阵到 Q/K 的形状：[T, dim//2] → [1, T, 1, dim//2]
    freqs_cis = freqs_cis.unsqueeze(0).unsqueeze(2)
    # 复数乘法 = 旋转操作，再转回实数形式并展平
    xq_out = torch.view_as_real(xq_ * freqs_cis).flatten(3)
    xk_out = torch.view_as_real(xk_ * freqs_cis).flatten(3)
    return xq_out.type_as(xq), xk_out.type_as(xk)

import math
import torch
import torch.nn as nn
from layers import apply_rotary_emb

class CausalSelfAttention(nn.Module):
    def __init__(self, config):
        super().__init__()
        assert config.hidden_size % config.num_heads == 0
        self.n_heads = config.num_heads
        self.head_dim = config.hidden_size // config.num_heads
        # 合并 Q/K/V 的线性映射（工程高效，也可拆分支持 GQA/MQA）
        self.wqkv = nn.Linear(config.hidden_size, 3 * config.hidden_size, bias=False)
        self.wo = nn.Linear(config.hidden_size, config.hidden_size, bias=False)
        self.attn_dropout = nn.Dropout(config.dropout)
        self.resid_dropout = nn.Dropout(config.dropout)

    def forward(self, x, freqs_cis, mask=None):
        B, T, C = x.size()  # B: batch_size, T: seq_len, C: hidden_size
        # 合并计算 Q/K/V，再拆分
        qkv = self.wqkv(x)
        q, k, v = qkv.split(C, dim=2)
        # 重塑为按头划分的形状：[B, T, n_heads, head_dim]
        q = q.view(B, T, self.n_heads, self.head_dim)
        k = k.view(B, T, self.n_heads, self.head_dim)
        v = v.view(B, T, self.n_heads, self.head_dim)
        # 应用 RoPE 位置编码
        q, k = apply_rotary_emb(q, k, freqs_cis[:T])
        # 转置为 [B, n_heads, T, head_dim]，适配 PyTorch 的 scaled_dot_product_attention
        q, k, v = q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2)
        # 调用 PyTorch 内置的缩放点积注意力（集成 Flash Attention，速度/显存优化）
        y = torch.nn.functional.scaled_dot_product_attention(
            q, k, v,
            attn_mask=mask,
            dropout_p=self.attn_dropout.p if self.training else 0.0,
            is_causal=True if mask is None else False  # 因果掩码，防止看到未来 token
        )
        # 拼接各头结果，转回 [B, T, C]
        y = y.transpose(1, 2).contiguous().view(B, T, C)
        return self.resid_dropout(self.wo(y))

import torch
import torch.nn as nn
from config import LLMConfig
from layers import RMSNorm, FeedForward, precompute_freqs_cis
from attention import CausalSelfAttention

class TransformerBlock(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.attention = CausalSelfAttention(config)
        self.feed_forward = FeedForward(config)
        # LLaMA 核心：Pre-Norm（归一化在注意力/FFN 之前）
        self.attention_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
        self.ffn_norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)

    def forward(self, x, freqs_cis):
        # 注意力层：残差连接 + Pre-Norm
        h = x + self.attention(self.attention_norm(x), freqs_cis)
        # FFN 层：残差连接 + Pre-Norm
        out = h + self.feed_forward(self.ffn_norm(h))
        return out

class LLM(nn.Module):
    def __init__(self, config: LLMConfig):
        super().__init__()
        self.config = config
        self.vocab_size = config.vocab_size
        # 词嵌入层（无 bias，对齐 LLaMA 设计）
        self.tok_embeddings = nn.Embedding(config.vocab_size, config.hidden_size)
        # 堆叠 Transformer 块
        self.layers = nn.ModuleList([TransformerBlock(config) for _ in range(config.num_layers)])
        # 输出归一化 + 分类头（无 bias）
        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
        self.output = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
        # 预计算 RoPE 频率矩阵，注册为 buffer（不参与梯度更新）
        freqs_cis = precompute_freqs_cis(config.hidden_size // config.num_heads, config.max_seq_len)
        self.register_buffer("freqs_cis", freqs_cis, persistent=False)

    def forward(self, tokens, targets=None):
        B, T = tokens.size()
        # 词嵌入：[B, T] → [B, T, C]
        h = self.tok_embeddings(tokens)
        # 逐层前向传播
        for layer in self.layers:
            h = layer(h, self.freqs_cis[:T])
        # 输出处理
        h = self.norm(h)
        logits = self.output(h)  # [B, T, vocab_size]
        # 计算损失（如果传入 targets）
        loss = None
        if targets is not None:
            loss = nn.functional.cross_entropy(logits.view(-1, self.vocab_size), targets.view(-1))
        return logits, loss

正在初始化 LLM 模型 (类 LLaMA 架构)...
模型参数量：0.85 M
前向传播测试：Loss = 6.9078, Logits Shape = torch.Size([1, 5, 1000])
开始生成文本...
原始输入：[10, 20, 30, 40, 50]
生成结果：[10, 20, 30, 40, 50, 88, 123, 45, 789, 23, 90, 111, 56, 89]

从零实现 LLaMA 架构：构建轻量级大语言模型

一、LLaMA 核心设计亮点

二、代码架构总览

三、逐模块解析代码

3.1 配置模块：`config.py`

更多推荐文章

相关免费在线工具

3.2 基础层模块：`layers.py`

3.2.1 均方根归一化（RMSNorm）

3.2.2 SwiGLU 前馈网络

3.2.3 旋转位置编码（RoPE）

3.3 注意力模块：`attention.py`

3.4 Transformer 块与主模型：`model.py`

四、实战运行与结果解读

五、总结

更多推荐文章

相关免费在线工具

从零实现 LLaMA 架构：构建轻量级大语言模型

一、LLaMA 核心设计亮点

二、代码架构总览

三、逐模块解析代码

3.1 配置模块：config.py

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 基础层模块：layers.py

3.2.1 均方根归一化（RMSNorm）

3.2.2 SwiGLU 前馈网络

3.2.3 旋转位置编码（RoPE）

3.3 注意力模块：attention.py

3.4 Transformer 块与主模型：model.py

四、实战运行与结果解读

五、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.1 配置模块：`config.py`

3.2 基础层模块：`layers.py`

3.3 注意力模块：`attention.py`

3.4 Transformer 块与主模型：`model.py`