从零构建并训练 BERT 架构大模型实战指南 | 极客日志

PythonAI算法

从零构建并训练 BERT 架构大模型实战指南

详细阐述从零构建并训练 BERT 架构大模型的完整流程。内容涵盖使用 Hugging Face tokenizers 库定制 WordPiece 分词器，配置 BertLMHeadModel 模型结构，利用文本语料进行预训练，以及完成后的推理测试。通过完整代码示例展示从环境准备、分词器保存、模型加载到训练参数设置的全过程，深入解析分词步骤、模型配置及训练策略，帮助开发者掌握大模型基础训练的核心技术细节。

樱花落尽发布于 2025/2/7更新于 2026/6/219 浏览

从零构建并训练 BERT 架构大模型实战指南

本文旨在详细讲解如何从零开始构建基于 BERT 架构的大语言模型。不同于常见的模型微调（Fine-tuning），本教程涵盖从分词器（Tokenizer）的独立训练到模型架构搭建及预训练的全过程。内容基于 Hugging Face 生态库，适合希望深入理解大模型底层原理的开发者。

环境准备

在开始之前，请确保已安装 Python 3.8+ 环境，并安装以下核心依赖库：

pip install transformers tokenizers datasets accelerate torch

建议使用 GPU 加速训练，若本地无显卡，可配置 CPU 模式但速度会显著降低。

第一部分：Tokenizer 分词器训练

BERT 模型通常使用 WordPiece 算法进行分词。自定义分词器能更好地适应特定领域的语料分布。

1. 导入必要模块

我们需要从 tokenizers 库中获取构建分词器所需的组件，包括 Normalizer、PreTokenizer、Model 和 Decoder。

from tokenizers import Tokenizer, processors
from tokenizers.models import WordPiece
from tokenizers.trainers import WordPieceTrainer
from tokenizers.normalizers import BertNormalizer
from tokenizers.pre_tokenizers import BertPreTokenizer
from tokenizers.decoders import WordPiece as WordPieceDecoder

2. 初始化 Tokenizer 与数据集

首先实例化一个空的 WordPiece 模型，并指定未识别词（UNK）的标记。加载待训练的文本文件路径。

tokenizer = Tokenizer(WordPiece(unk_token="[UNK]"))
files = ["./sanguo.txt"]  # 替换为你的训练数据路径

3. 设置 Normalizer（归一化）

BERT 标准做法是将所有字符转换为小写，并去除多余空格。这有助于减少词汇表大小并提高泛化能力。

tokenizer.normalizer = BertNormalizer(lowercase=True)

4. 设置 PreTokenizer（预分词）

在正式切分单词前，先对文本进行初步处理。BertPreTokenizer 能够正确处理标点符号与单词之间的边界。

tokenizer.pre_tokenizer = BertPreTokenizer()

5. 训练模型与添加特殊标记

定义特殊标记列表，如 [CLS], , 等，这些是 BERT 架构所必需的。设置词表大小（Vocab Size），例如 50000。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

[SEP]

[MASK]

special_tokens = ["[UNK]", "[PAD]", "[CLS]", "[SEP]", "[MASK]"]
trainer = WordPieceTrainer(
    vocab_size=50000,
    show_progress=True,
    special_tokens=special_tokens
)
tokenizer.train(files, trainer)

cls_token_id = tokenizer.token_to_id("[CLS]")
sep_token_id = tokenizer.token_to_id("[SEP]")
tokenizer.post_processor = processors.TemplateProcessing(
    single=f"[CLS]:0 $A:0 [SEP]:0",
    pair=f"[CLS]:0 $A:0 [SEP]:0 $B:1 [SEP]:1",
    special_tokens=[("[CLS]", cls_token_id), ("[SEP]", sep_token_id)],
)
tokenizer.decoder = WordPieceDecoder(prefix="##")

tokenizer.save("tokenizer.json")

from transformers import BertTokenizerFast

wrapped_tokenizer = BertTokenizerFast(tokenizer_object=tokenizer)
wrapped_tokenizer.save_pretrained("./bert")

from transformers import (
    BertConfig, BertLMHeadModel, BertTokenizer,
    LineByLineTextDataset, DataCollatorForLanguageModeling,
    Trainer, TrainingArguments
)
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

tokenizer = BertTokenizer.from_pretrained("./bert")

config = BertConfig(
    vocab_size=tokenizer.vocab_size,
    is_decoder=True,
    max_position_embeddings=512
)
model = BertLMHeadModel(config)

dataset = LineByLineTextDataset(
    tokenizer=tokenizer,
    file_path="./sanguo.txt",
    block_size=32  # 根据显存情况调整，越大效果越好但越吃资源
)

data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False,  # 设为 False 表示自回归训练，True 为掩码语言模型
    mlm_probability=0.15
)

training_args = TrainingArguments(
    output_dir="./output",
    overwrite_output_dir=True,
    num_train_epochs=20,
    per_device_train_batch_size=16,
    save_steps=2000,
    save_total_limit=2,
    logging_steps=100,
    fp16=True  # 启用混合精度训练以节省显存
)

trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=dataset
)

trainer.train()

model.save_pretrained("./bert")

from transformers import pipeline, set_seed

generator = pipeline("text-generation", model="./bert")
set_seed(42)  # 固定随机种子以保证结果可复现

# 测试示例 1
txt = generator("吕布", max_length=50, do_sample=True)
print(txt)

# 测试示例 2
txt = generator("接着奏乐", max_length=50, do_sample=True)
print(txt)

从零构建并训练 BERT 架构大模型实战指南

从零构建并训练 BERT 架构大模型实战指南

环境准备

第一部分：Tokenizer 分词器训练

1. 导入必要模块

2. 初始化 Tokenizer 与数据集

3. 设置 Normalizer（归一化）

4. 设置 PreTokenizer（预分词）

5. 训练模型与添加特殊标记

更多推荐文章

相关免费在线工具

6. 后处理与解码器配置

7. 保存分词器

集成到 Transformers

第二部分：模型训练

1. 导入训练模块

2. 加载分词器

3. 模型配置

4. 数据加载与预处理

5. 训练参数与训练器

6. 模型保存

第三部分：模型推理测试

常见问题与优化建议

总结

更多推荐文章

相关免费在线工具

从零构建并训练 BERT 架构大模型实战指南

从零构建并训练 BERT 架构大模型实战指南

环境准备

第一部分：Tokenizer 分词器训练

1. 导入必要模块

2. 初始化 Tokenizer 与数据集

3. 设置 Normalizer（归一化）

4. 设置 PreTokenizer（预分词）

5. 训练模型与添加特殊标记

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6. 后处理与解码器配置

7. 保存分词器

集成到 Transformers

第二部分：模型训练

1. 导入训练模块

2. 加载分词器

3. 模型配置

4. 数据加载与预处理

5. 训练参数与训练器

6. 模型保存

第三部分：模型推理测试

常见问题与优化建议

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具