从零训练大语言模型：环境与代码实战指南

从零训练大语言模型：环境与代码实战指南 | 极客日志

pip install transformers datasets torch tokenizers accelerate

import torch
print(torch.cuda.is_available())

wget https://raw.githubusercontent.com/xinzhanguo/hellollm/main/text/sanguoyanyi.txt -O text/sanguoyanyi.txt

from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.normalizers import NFKC, Sequence
from tokenizers.pre_tokenizers import ByteLevel
from tokenizers.decoders import ByteLevel as ByteLevelDecoder
from transformers import GPT2TokenizerFast

# 构建分词器 GPT2 基于 BPE 算法实现
tokenizer = Tokenizer(BPE(unk_token="<unk>"))
tokenizer.normalizer = Sequence([NFKC()])
tokenizer.pre_tokenizer = ByteLevel()
tokenizer.decoder = ByteLevelDecoder()

special_tokens = ["<s>","<pad>","</s>","<unk>","<mask>"]
trainer = BpeTrainer(vocab_size=50000, show_progress=True, initial_alphabet=ByteLevel.alphabet(), special_tokens=special_tokens)
# 创建 text 文件夹，并把 sanguoyanyi.txt 下载，放到目录里
files = ["text/sanguoyanyi.txt"]
# 开始训练了
tokenizer.train(files, trainer)
# 把训练的分词通过 GPT2 保存起来，以方便后续使用
newtokenizer = GPT2TokenizerFast(tokenizer_object=tokenizer)
newtokenizer.save_pretrained("./sanguo")

import torch
from transformers import GPT2LMHeadModel, GPT2Config, Trainer, TrainingArguments
from datasets import Dataset

# 加载分词器
tokenizer = GPT2TokenizerFast.from_pretrained("./sanguo")
config = GPT2Config.from_pretrained("./sanguo")
model = GPT2LMHeadModel(config)

# 准备数据集
with open("text/sanguoyanyi.txt", "r", encoding="utf-8") as f:
    text = f.read()
dataset = Dataset.from_dict({"text": [text]})
tokenized_dataset = dataset.map(lambda x: tokenizer(x["text"], truncation=True, max_length=512), batched=True)

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    save_steps=10_000,
    save_total_limit=2,
    learning_rate=2e-5,
    weight_decay=0.01,
    fp16=True, # 开启混合精度加速
    logging_steps=10,
)

# 初始化 Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
)

# 开始训练
trainer.train()
trainer.save_model("./sanguo_trained")

from transformers import pipeline

generator = pipeline("text-generation", model="./sanguo_trained", tokenizer="./sanguo")
result = generator("吕布", max_length=50, num_return_sequences=1)
print(result[0]['generated_text'])

result = generator("却说曹操引军因二人", max_length=50, num_return_sequences=1)
print(result[0]['generated_text'])

从零训练大语言模型：环境与代码实战指南

从零训练大语言模型：环境与代码实战指南

引言

1. 准备训练环境

依赖安装

2. 准备训练数据

数据下载与预处理

3. 训练分词器

4. 训练模型

模型加载与数据集准备

训练参数配置

启动训练

5. 测试模型

6. 完整代码与总结

后续建议

常见问题排查

更多推荐文章

相关免费在线工具

从零训练大语言模型：环境与代码实战指南

从零训练大语言模型：环境与代码实战指南

引言

1. 准备训练环境

依赖安装

2. 准备训练数据

数据下载与预处理

3. 训练分词器

4. 训练模型

模型加载与数据集准备

训练参数配置

启动训练

5. 测试模型

6. 完整代码与总结

后续建议

常见问题排查

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具