英文大语言模型中文指令微调实战指南 | 极客日志

PythonAI算法

英文大语言模型中文指令微调实战指南

综述由AI生成英文大语言模型进行中文指令微调的完整流程。首先阐述了数据构造规范，包括指令、输入和输出的拼接方式，以及 input_ids 和 labels 的构建逻辑，特别解释了 IGNORE_INDEX 的作用。接着分析了 Tokenization 的关键点，如特殊标记的处理和编码解码测试。在模型加载部分，说明了 AutoModel 的使用及 trust_remote_code 的重要性。训练环节重点介绍了 LoRA 参数配置和 DeepSpeed 分布式优化策略，涵盖了显存管理和训练参数设置。最后简要提及了评估指标和后续 LangChain 的应用方向，为开发者提供了系统的微调实战指南。

追风少年发布于 2025/2/6更新于 2026/6/234 浏览

英文大语言模型中文指令微调实战指南

Part1 前言

在之前的继续预训练（Continual Pre-training）讲解中，我们已经对从数据处理到训练、预测的整个流程有了基本了解。实际上，指令微调（Instruction Fine-tuning, SFT）的流程与预训练类似，但在数据构造和模型适配上有所不同。

当我们选择好一个大语言模型后，例如 ChatGLM、LLaMA、Bloom 等，要想使用它进行中文指令微调，必须深入理解三个方面：输入数据的格式、Tokenization 机制、以及模型的使用方式。本文将基于 Chinese-LLaMA-Alpaca 项目的训练代码，详细拆解指令微调的核心步骤。

Part2 数据构造

数据的输入是微调的基础。一般情况下，我们需要在模型的官方代码中找到数据输入的部分，或者参考其他开源项目的数据预处理逻辑。建议先找一份小的数据集，单独运行预处理脚本，观察输出结果，特别是 input_ids 中的特殊标记和 labels 的构造方式。

2.1 数据格式规范

指令数据通常由三部分组成：

Instruction (instruct): 提示指令，描述任务。
Input (query): 文本输入，可选，为空时仅依赖指令。
Output (answer): 返回的结果，即模型需要生成的内容。

构造样本时，一般将 Instruction 和 Input 拼接作为 Prompt，最终对 Output 进行预测。需要注意的是，不同模型对 Prompt 的格式要求不同，例如 LLaMA 系列常用 Alpaca 格式，而 ChatGLM 有特定的对话模板。

PROMPT_DICT = {
    "chatglm_input": "{instruction}{input}",
    "alpaca_input": (
        "Below is an instruction that describes a task. "
        "Write a response that appropriately completes the request.\n\n"
        "### Instruction:\n{instruction}{input}\n\n### Response: "
    ),
    "bloom_input": "Human: \n{instruction}{input}\n\nAssistant: \n",
}

2.2 Token ID 与 Labels 构建

假设我们有样本：我爱北京天安门，你喜欢什么？，分词后得到 token 序列，转换为 token_id。对于 Output 我喜欢故宫，同样转换为 token_id。

一般情况下，Output 前后会被标识符包裹，如 bos_token_id (开始) 和 eos_token_id (结束)。样本的 input_ids 结构如下： [Instruction_Tokens] + [bos_token_id] + [Output_Tokens] + [eos_token_id]

关于 labels 的构建，关键在于损失计算的范围。我们只希望模型学习生成 Output 部分，而不需要为 Instruction 部分计算损失。因此，Instruction 部分的 labels 应填充为 -100（IGNORE_INDEX），Output 部分的 labels 则为对应的 token_id。

示例：

Input IDs: [12, 112, ..., 545, 1, 12, 2346, 654, 2]

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# instruction_ids + [gmask] + <sop> + output_ids + <eop>
input_ids = instruction_ids + [gmask] + sop_ids + output_ids + eop_ids
labels = [-100] * len(instruction_ids + gmask + sop_ids) + output_ids + eop_ids

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("model_hub/chatglm-6b", trust_remote_code=True)

print("BOS token:", tokenizer.bos_token)
print("EOS token:", tokenizer.eos_token)
print("PAD token:", tokenizer.pad_token)

text = "我爱北京天安门"
print(tokenizer(text))
print(tokenizer.convert_ids_to_tokens([18060, 12247, 14949]))
print(tokenizer.decode([18060, 12247, 14949]))

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("model_hub/chatglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("model_hub/chatglm-6b", trust_remote_code=True).half().cuda()
model = model.eval()

# 推理示例
response, history = model.chat(tokenizer, "你好", history=[])
print(response)
response, history = model.chat(tokenizer, "晚上睡不着应该怎么办", history=history)
print(response)

from peft import LoraConfig, get_peft_model

peft_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_dropout=0.1,
    bias="none",
    task_type="CAUSAL_LM"
)

from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="./output",
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=2e-5,
    num_train_epochs=3,
    fp16=True,
    logging_steps=10,
    save_strategy="epoch",
    deepspeed="ds_config.json"
)

英文大语言模型中文指令微调实战指南

英文大语言模型中文指令微调实战指南

Part1 前言

Part2 数据构造

2.1 数据格式规范

2.2 Token ID 与 Labels 构建

更多推荐文章

相关免费在线工具

Part3 Tokenization 详解

3.1 特殊标记检查

3.2 编码与解码测试

Part4 模型加载与推理

4.1 加载配置

4.2 显存优化

Part5 训练配置与优化

5.1 核心库集成

5.2 LoRA 参数配置

5.3 DeepSpeed 配置

5.4 训练循环

Part6 评估与部署

6.1 评估指标

6.2 后续方向

Part7 总结

更多推荐文章

相关免费在线工具

英文大语言模型中文指令微调实战指南

英文大语言模型中文指令微调实战指南

Part1 前言

Part2 数据构造

2.1 数据格式规范

2.2 Token ID 与 Labels 构建

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Part3 Tokenization 详解

3.1 特殊标记检查

3.2 编码与解码测试

Part4 模型加载与推理

4.1 加载配置

4.2 显存优化

Part5 训练配置与优化

5.1 核心库集成

5.2 LoRA 参数配置

5.3 DeepSpeed 配置

5.4 训练循环

Part6 评估与部署

6.1 评估指标

6.2 后续方向

Part7 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具