大模型微调（Fine-Tuning）实战指南：基于 Hugging Face 与 GPT2 | 极客日志

PythonAI算法

大模型微调（Fine-Tuning）实战指南：基于 Hugging Face 与 GPT2

综述由AI生成以 Hugging Face 的 rotten_tomatoes 数据集和 gpt2 模型为例，演示了从零开始进行大模型微调的完整流程。内容涵盖环境搭建、数据加载与预处理、Tokenizer 配置、训练超参数设置、Trainer 定义及训练执行。此外，补充了模型保存后的推理方法及常见问题优化建议，帮助开发者掌握微调核心步骤，实现特定场景下的模型性能优化。

FrontendX发布于 2025/2/7更新于 2026/6/516 浏览

大模型微调（Fine-Tuning）实战指南

1. 什么是 Fine-Tuning

Fine-Tuning，即微调。在原有预训练模型的基础上，通过补充特定领域的数据，对原有模型的部分参数进行调整，从而使模型能在某些特定的场景下表现更优。

微调可以提高模型在特定任务上的表现，但需要注意，过度微调可能会降低模型在通用场景下的能力（灾难性遗忘）。因此，选择合适的学习率和数据量至关重要。

本文将带你从零开始跑通一个完整的微调流程，无需深厚的深度学习背景，只需具备基础的 Python 编程能力即可。

2. 环境准备

使用 Hugging Face 生态进行模型训练和微调。执行以下代码安装依赖：

# pip 安装
pip install transformers datasets torch accelerate
# conda 安装
conda install -c huggingface transformers

Hugging Face 简介

相当于面向 NLP 模型的 GitHub，拥有最丰富的开源模型库

封装了模型、数据集、训练器等，极大简化了下载、使用和训练流程

3. 加载训练数据集

使用 datasets 库中的 load_dataset 函数在线加载数据。本文以 rotten_tomatoes 情感分类数据集为例。

输入：电影评论文本
输出：['负面', '正面']

import os
from datasets import load_dataset

DATASET_NAME = "rotten_tomatoes"

# 加载数据集
raw_datasets = load_dataset(DATASET_NAME)

# 保存到本地以便后续复用
save_path = os.path.join("data", DATASET_NAME)
os.makedirs(save_path, exist_ok=True)
raw_datasets.save_to_disk(save_path)

# 划分训练集和验证集
raw_train_dataset = raw_datasets["train"]
raw_valid_dataset = raw_datasets["validation"]

4. 加载预训练模型

使用 transformers 库中的 AutoModelForCausalLM 自动加载预训练模型。本文选用轻量级的 gpt2 模型，适合在普通笔记本上运行。

from transformers import AutoModelForCausalLM

MODEL_NAME = "gpt2"

# 加载模型
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    trust_remote_code=True
)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from transformers import AutoTokenizer

# 加载 tokenizer
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)

# 设置 pad_token，防止 padding 时出错
tokenizer.add_special_tokens({'pad_token': '[PAD]'})
tokenizer.pad_token_id = 0

# 标签映射
named_labels = ['neg', 'pos']
label_ids = [
    tokenizer(named_labels[i], add_special_tokens=False)["input_ids"][0] 
    for i in range(len(named_labels))
]

MAX_LEN = 32  # 最大序列长度
DATA_BODY_KEY = "text"
DATA_LABEL_KEY = "label"

def process_fn(examples):
    model_inputs = {
        "input_ids": [],
        "attention_mask": [],
        "labels": [],
    }
    for i in range(len(examples[DATA_BODY_KEY])):
        inputs = tokenizer(examples[DATA_BODY_KEY][i], add_special_tokens=False)
        label = label_ids[examples[DATA_LABEL_KEY][i]]
        
        # 拼接输入和标签
        input_ids = inputs["input_ids"] + [tokenizer.eos_token_id, label]
        
        raw_len = len(input_ids)
        input_len = len(inputs["input_ids"]) + 1

        if raw_len >= MAX_LEN:
            # 截断
            input_ids = input_ids[-MAX_LEN:]
            attention_mask = [1] * MAX_LEN
            labels = [-100] * (MAX_LEN - 1) + [label]
        else:
            # 填充
            input_ids = input_ids + [0] * (MAX_LEN - raw_len)
            attention_mask = [1] * raw_len + [tokenizer.pad_token_id] * (MAX_LEN - raw_len)
            labels = [-100] * input_len + [label] + [-100] * (MAX_LEN - raw_len)
            
        model_inputs["input_ids"].append(input_ids)
        model_inputs["attention_mask"].append(attention_mask)
        model_inputs["labels"].append(labels)
    return model_inputs

# 应用处理函数
tokenized_train_dataset = raw_train_dataset.map(
    process_fn,
    batched=True,
    remove_columns=raw_train_dataset.column_names,
    desc="Running tokenizer on train dataset",
)

tokenized_valid_dataset = raw_valid_dataset.map(
    process_fn,
    batched=True,
    remove_columns=raw_valid_dataset.column_names,
    desc="Running tokenizer on validation dataset",
)

from transformers import DataCollatorWithPadding

collater = DataCollatorWithPadding(
    tokenizer=tokenizer, 
    return_tensors="pt",
)

LR = 2e-5         # 学习率
BATCH_SIZE = 8    # Batch 大小
INTERVAL = 100    # 日志与评估步数

training_args = TrainingArguments(
    output_dir="./output",              # 检查点保存路径
    evaluation_strategy="steps",        # 每 N 步做一次 eval
    overwrite_output_dir=True,
    num_train_epochs=1,                 # 训练轮数
    per_device_train_batch_size=BATCH_SIZE,
    gradient_accumulation_steps=1,      # 梯度累积步数
    per_device_eval_batch_size=BATCH_SIZE,
    logging_steps=INTERVAL,             # 日志频率
    save_steps=INTERVAL,                # 保存频率
    learning_rate=LR,
    fp16=True,                          # 启用混合精度加速（需显卡支持）
)

from transformers import Trainer

# 开启梯度检查点以节省显存
model.gradient_checkpointing_enable()

trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=collater,
    train_dataset=tokenized_train_dataset,
    eval_dataset=tokenized_valid_dataset,
)

trainer.train()

from transformers import TextGenerationPipeline

# 加载微调后的模型
fine_tuned_model = AutoModelForCausalLM.from_pretrained("./output")
pipeline = TextGenerationPipeline(model=fine_tuned_model, tokenizer=tokenizer)

# 生成文本
result = pipeline("The movie was", max_length=50)
print(result)

大模型微调（Fine-Tuning）实战指南：基于 Hugging Face 与 GPT2

大模型微调（Fine-Tuning）实战指南

1. 什么是 Fine-Tuning

2. 环境准备

3. 加载训练数据集

4. 加载预训练模型

更多推荐文章

相关免费在线工具

5. 加载 Tokenizer

6. 处理训练数据集

7. 定义数据规整器

8. 定义训练超参数

关键参数说明

9. 定义训练器

10. 开始训练

11. 模型推理与应用

12. 常见问题与优化建议

更多推荐文章

相关免费在线工具

大模型微调（Fine-Tuning）实战指南：基于 Hugging Face 与 GPT2

大模型微调（Fine-Tuning）实战指南

1. 什么是 Fine-Tuning

2. 环境准备

3. 加载训练数据集

4. 加载预训练模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5. 加载 Tokenizer

6. 处理训练数据集

7. 定义数据规整器

8. 定义训练超参数

关键参数说明

9. 定义训练器

10. 开始训练

11. 模型推理与应用

12. 常见问题与优化建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具