个人从零预训练 1B LLM 实践与总结 | 极客日志

PythonAI算法

个人从零预训练 1B LLM 实践与总结

综述由AI生成记录了从零预训练 1B 参数中文大语言模型 Steel-LLM 的全过程。涵盖数据收集清洗、基于 TinyLlama 的训练框架改进、模型结构优化（Soft MoE、SENet）、分布式训练策略（FSDP）及微调评估。项目最终在 C-Eval 和 CMMLU 基准测试中取得一定成绩，并分享了算力受限下的工程经验与踩坑细节。

灵魂伴侣发布于 2025/2/7更新于 2026/6/321 浏览

前言

项目开始于 2024 年 3 月初，当时获得了一台 A100 算力资源。为了充分利用资源并探索大模型训练的工程细节，决定尝试从零训练一个小型号的 LLM。虽然当时已有不少'从零预训练 LLM'的案例，但大多数据量或模型较小，未充分暴露工程问题，且训练细节分享不够清晰。因此，制定计划时设定了两个目标：

规模适中：参数量在 B 级别，数据量达到 T 级别。
细节透明：详细分享训练过程中的各种细节，帮助无资源的同学了解实践知识，帮助有资源的同学少走弯路。

参考项目训练时间估算，预计可使用 T 级别数据训练 1B 大小的 LLM，耗时约两个月。考虑到算力有限，决定该 LLM 以中文语料为主（80% 中文，20% 英文），定位为中文 LLM。

命名为'Steel'(钢)，名称灵感来源于华北平原的优秀乐队'万能青年旅店'。乐队在条件有限的情况下做出了优秀的专辑，我们训练 LLM 的条件同样有限，但也希望能炼出好'钢'。

项目初期曾计划收集读者数据融入模型，但因效果不如微调及数据质量难以保证，后期取消了该功能。项目历时 8 个月，期间遇到算力断供等困难，最终 Steel-LLM 在 C-Eval 取得 38 分，CMMLU 取得 33 分的成绩，表现超过了一些参数更大的早期机构模型。

本文侧重介绍在做各部分内容时遇到的问题、思考以及技术细节。

数据收集与处理

Steel LLM 使用的全部数据均为开源数据。预训练阶段中，多个主流数据集占据了绝大部分比例，总计约 1.1T token。除了这些大数据量的预训练数据外，还在预训练阶段加入了本应在 SFT 阶段加入的对话数据，如 Alpaca 等格式的数据。这些数据遵循如下对话形式，数据的 prompt 部分在训练时也计算 loss：

{
  "messages": [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "{问题}"},
    {"role": "assistant", "content": "{回答}"}
  ]
}

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

class Qwen2MoeMLP(nn.Module):
    def __init__(self, config, intermediate_size=None):
        super().__init__()
        self.config = config
        self.hidden_size = config.hidden_size
        self.intermediate_size = intermediate_size
        self.gate_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias=False)
        self.up_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias=False)
        self.down_proj = nn.Linear(self.intermediate_size, self.hidden_size, bias=False)
        self.act_fn = ACT2FN[config.hidden_act]

    def forward(self, x):
        return self.down_proj(self.act_fn(self.gate_proj(x)) * self.up_proj(x))

个人从零预训练 1B LLM 实践与总结

前言

数据收集与处理

更多推荐文章

相关免费在线工具

训练框架

训练效率优化

分布式训练策略

模型结构

Soft MoE

SENet

训练过程

微调和评估

小结

常见问题与经验

更多推荐文章

相关免费在线工具

个人从零预训练 1B LLM 实践与总结

前言

数据收集与处理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

训练框架

训练效率优化

分布式训练策略

模型结构

Soft MoE

SENet

训练过程

微调和评估

小结

常见问题与经验

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具