从零开始实现 LLaMa3 模型：核心架构与代码解析

从零开始实现 LLaMa3 模型：核心架构与代码解析 | 极客日志

import torch
import json
from pathlib import Path

# 加载模型文件
model = torch.load("Meta-Llama-3-8B/consolidated.00.pth")
print(json.dumps(list(model.keys())[:20], indent=4))

with open("Meta-Llama-3-8B/params.json", "r") as f:
    config = json.load(f)
config

dim = config["dim"]
n_layers = config["n_layers"]
n_heads = config["n_heads"]
n_kv_heads = config["n_kv_heads"]
vocab_size = config["vocab_size"]
multiple_of = config["multiple_of"]
ffn_dim_multiplier = config["ffn_dim_multiplier"]
norm_eps = config["norm_eps"]
rope_theta = torch.tensor(config["rope_theta"])

import tiktoken
from tiktoken.load import load_tiktoken_bpe

tokenizer_path = "Meta-Llama-3-8B/tokenizer.model"
special_tokens = [
    "<|begin_of_text|>",
    "<|end_of_text|>",
    "<|reserved_special_token_0|>",
    # ... 其他特殊 token
] + [f"<|reserved_special_token_{i}|>" for i in range(5, 256 - 5)]

mergeable_ranks = load_tiktoken_bpe(tokenizer_path)
tokenizer = tiktoken.Encoding(
    name=Path(tokenizer_path).name,
    pat_str=r"(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\r\n\p {L}\p {N}]?\p {L}+|\p {N}{1,3}| ?[^\s\p {L}\p {N}]+[\r\n]*|\s*[\r\n]+|\s+(?!\S)|\s+",
    mergeable_ranks=mergeable_ranks,
    special_tokens={token: len(mergeable_ranks) + i for i, token in enumerate(special_tokens)},
)

# 测试分词
result = tokenizer.decode(tokenizer.encode("hello world!"))
print(result)

embedding_layer = torch.nn.Embedding(vocab_size, dim)
embedding_layer.weight.data.copy_(model["tok_embeddings.weight"])
token_embeddings_unnormalized = embedding_layer(tokens).to(torch.bfloat16)

def rms_norm(tensor, norm_weights):
    return (tensor * torch.rsqrt(tensor.pow(2).mean(-1, keepdim=True) + norm_eps)) * norm_weights

q_layer0 = model["layers.0.attention.wq.weight"]
head_dim = q_layer0.shape[0] // n_heads
q_layer0 = q_layer0.view(n_heads, head_dim, dim)

# 生成频率向量
freqs = 1.0 / (rope_theta ** torch.arange(0, head_dim, 2).float() / head_dim)
freqs_cis = torch.polar(torch.ones_like(freqs), freqs)

# 应用旋转
q_per_token_as_complex_numbers = torch.view_as_complex(q_per_token_split_into_pairs)
q_per_token_rotated = torch.view_as_real(q_per_token_as_complex_numbers * freqs_cis)

qk_per_token = torch.matmul(q_per_token_rotated, k_per_token_rotated.T) / (head_dim)**0.5
mask = torch.full((len(tokens), len(tokens)), float("-inf"), device=tokens.device)
mask = torch.triu(mask, diagonal=1)
qk_per_token_after_masking = qk_per_token + mask
attention_scores = torch.nn.functional.softmax(qk_per_token_after_masking, dim=1).to(torch.bfloat16)

qkv_attention_store = []
for head in range(n_heads):
    # 计算单个头的注意力
    # ... (省略中间步骤)
    qkv_attention_store.append(qkv_attention)

stacked_qkv_attention = torch.cat(qkv_attention_store, dim=-1)

w1 = model["layers.0.feed_forward.w1.weight"]
w2 = model["layers.0.feed_forward.w2.weight"]
w3 = model["layers.0.feed_forward.w3.weight"]

output_after_feedforward = torch.matmul(
    torch.functional.F.silu(torch.matmul(embedding_after_edit_normalized, w1.T)) 
    * torch.matmul(embedding_after_edit_normalized, w3.T), 
    w2.T
)

final_embedding = token_embeddings_unnormalized
for layer in range(n_layers):
    # 1. 归一化
    layer_embedding_norm = rms_norm(final_embedding, model[f"layers.{layer}.attention_norm.weight"])
    
    # 2. 注意力机制
    # ... (复用注意力逻辑)
    
    # 3. 残差连接
    embedding_after_edit = final_embedding + embedding_delta
    
    # 4. FFN 与前向传播
    # ... (复用 FFN 逻辑)
    
    # 5. 更新最终嵌入
    final_embedding = embedding_after_edit + output_after_feedforward

logits = torch.matmul(final_embedding[-1], model["output.weight"].T)
next_token = torch.argmax(logits, dim=-1)
print(tokenizer.decode([next_token.item()]))

从零开始实现 LLaMa3 模型：核心架构与代码解析

从零开始实现 LLaMa3 模型

项目背景与资源

环境准备与模型加载

1. 加载模型权重

分词器 (Tokenizer) 实现

文本嵌入与归一化

1. 嵌入层

2. RMSNorm 归一化

注意力机制实现

1. 查询与键的投影

2. 旋转位置编码 (RoPE)

3. 注意力分数计算与掩码

4. 多头注意力聚合

前馈神经网络 (FFN)

完整推理循环

输出解码

总结

更多推荐文章

相关免费在线工具

从零开始实现 LLaMa3 模型：核心架构与代码解析

从零开始实现 LLaMa3 模型

项目背景与资源

环境准备与模型加载

1. 加载模型权重

分词器 (Tokenizer) 实现

文本嵌入与归一化

1. 嵌入层

2. RMSNorm 归一化

注意力机制实现

1. 查询与键的投影

2. 旋转位置编码 (RoPE)

3. 注意力分数计算与掩码

4. 多头注意力聚合

前馈神经网络 (FFN)

完整推理循环

输出解码

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具