Qwen7b 大模型高效微调实战指南 | 极客日志

PythonAI算法

Qwen7b 大模型高效微调实战指南

综述由AI生成基于 QLoRA 技术对 Qwen7b 大模型进行高效微调的完整流程。内容涵盖环境配置、数据集构建（支持单轮与多轮对话）、模型加载与量化、PEFT 适配器配置、训练过程管理及模型合并部署。通过实际案例演示了如何修改模型的自我认知，并提供了推理测试代码，帮助开发者快速掌握开源大模型的高效微调方法。

CoderByte发布于 2025/2/7更新于 2026/6/229 浏览

Qwen7b 大模型高效微调实战指南

本文详细介绍基于 QLoRA (Quantized Low-Rank Adaptation) 技术对 Qwen7b-Chat 开源大模型进行高效微调的完整流程。通过本教程，您可以快速掌握数据预处理、模型加载、适配器配置、训练及部署的全过程，实现修改模型自我认知或特定领域知识注入的目标。

一、环境准备与依赖安装

在开始之前，请确保您的开发环境满足以下要求：

硬件：建议配备 NVIDIA GPU，显存至少 16GB（使用 4-bit 量化可支持更低显存）。
软件：Python 3.8+，PyTorch 2.0+。

核心依赖库：

pip install transformers accelerate peft bitsandbytes torch datasets

二、数据集构建与预处理

微调的核心在于数据质量。本示例构造了一个用于改变模型自我认知的三轮对话玩具数据集，并展示了如何支持单轮和多轮对话模式的数据标签处理。

1. 数据格式设计

在多轮对话模式下，我们需要标记所有机器人回复的内容作为学习目标，用户输入部分通常不参与梯度计算（label 设为 -100）。

# 多轮对话标签逻辑示意
inputs = "<user1> <assistant1> <user2> <assistant2>"
labels = "<-100> <assistant1> <-100> <assistant2>"

在单轮对话模式下，仅将最后一轮机器人的回复作为学习标签。

# 单轮对话标签逻辑示意
inputs = "<user1> <assistant1> <user2> <assistant2>"
labels = "<-100> <-100> <-100> <assistant2>"

2. 代码实现

我们使用自定义的 Dataset 类来管理数据，并处理 padding 逻辑。

import random
from torch.utils.data import Dataset, DataLoader
from copy import deepcopy

class MyDataset(Dataset):
    def __init__(self, conv, size=8):
        self.conv = conv
        self.index_list = list(range(size))
        self.size = size 

    def __len__():
         .size

     ():
        idx = .index_list[index]
        messages = get_messages(.conv)
         messages

     ():
        messages = .get(index)
        
        input_ids, labels = llm.build_inputs_labels(messages, multi_rounds=)
         {: input_ids, : labels}

 ():
    select = random.choice
    messages, history = [], []
     t  conversation:
        history.append((select(t[]), select(t[-])))
     prompt, response  history:
        pair = [{: , : prompt},
                {: , : response}]
        messages.extend(pair)
     messages


who_are_you = [, , ]
i_am = []
where_you_from = [, , ]
i_from = []
what_you_can = [, , ]
i_can = []

conversation = [(who_are_you, i_am), (where_you_from, i_from), (what_you_can, i_can)]

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

def data_collator(examples: list):
    len_ids = [len(example["input_ids"]) for example in examples]
    longest = max(len_ids)
    
    input_ids = []
    labels_list = []
    
    for length, example in sorted(zip(len_ids, examples), key=lambda x: -x[0]):
        ids = example["input_ids"]
        labs = example["labels"]
        
        ids = ids + [tokenizer.pad_token_id] * (longest - length)
        labs = labs + [-100] * (longest - length)
        
        input_ids.append(torch.LongTensor(ids))
        labels_list.append(torch.LongTensor(labs))
          
    input_ids = torch.stack(input_ids)
    labels = torch.stack(labels_list)
    return {
        "input_ids": input_ids,
        "labels": labels,
    }

ds_train = ds_val = MyDataset(conversation, size=27)
dl_train = DataLoader(ds_train, batch_size=2, pin_memory=True, shuffle=False, collate_fn=data_collator)
dl_val = DataLoader(ds_val, batch_size=2, pin_memory=True, shuffle=False, collate_fn=data_collator)

import warnings
warnings.filterwarnings('ignore')

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from transformers.generation.utils import GenerationConfig

model_name_or_path = 'Qwen/Qwen-7b-Chat'  # 远程仓库地址

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
)

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained(
    model_name_or_path,
    quantization_config=bnb_config,
    trust_remote_code=True
)

model.generation_config = GenerationConfig.from_pretrained(model_name_or_path)

from peft import get_peft_model, TaskType, prepare_model_for_kbit_training
import bitsandbytes as bnb

def find_all_linear_names(model):
    cls = bnb.nn.Linear4bit
    lora_module_names = set()
    for name, module in model.named_modules():
        if isinstance(module, cls):
            names = name.split('.')
            lora_module_names.add(names[0] if len(names) == 1 else names[-1])
    if 'lm_head' in lora_module_names:
        lora_module_names.remove('lm_head')
    return list(lora_module_names)

model.supports_gradient_checkpointing = True
model.gradient_checkpointing_enable()
model.enable_input_require_grads()
model.config.use_cache = False

model = prepare_model_for_kbit_training(model)
lora_modules = find_all_linear_names(model)
print(f"Target modules: {lora_modules}")

from peft import AdaLoraConfig
peft_config = AdaLoraConfig(
    task_type=TaskType.CAUSAL_LM, inference_mode=False,
    r=16,
    lora_alpha=16, lora_dropout=0.08,
    target_modules=lora_modules
)

peft_model = get_peft_model(model, peft_config)
peft_model.is_parallelizable = True
peft_model.model_parallel = True
peft_model.print_trainable_parameters()

from accelerate import Accelerator

class StepRunner:
    def __init__(self, net, loss_fn, accelerator=None, stage="train", metrics_dict=None, optimizer=None, lr_scheduler=None):
        self.net, self.loss_fn, self.metrics_dict, self.stage = net, loss_fn, metrics_dict, stage
        self.optimizer, self.lr_scheduler = optimizer, lr_scheduler
        self.accelerator = accelerator if accelerator is not None else Accelerator()
        if self.stage == 'train':
            self.net.train()
        else:
            self.net.eval()

    def __call__(self, batch):
        with self.accelerator.autocast():
            loss = self.net.forward(**batch)[0]
        if self.optimizer is not None and self.stage == "train":
            self.accelerator.backward(loss)
            if self.accelerator.sync_gradients:
                self.accelerator.clip_grad_norm_(self.net.parameters(), 1.0)
            self.optimizer.step()
            if self.lr_scheduler is not None:
                self.lr_scheduler.step()
            self.optimizer.zero_grad()
        all_loss = self.accelerator.gather(loss).sum()
        step_losses = {self.stage + "_loss": all_loss.item()}
        step_metrics = {}
        if self.stage == "train" and self.optimizer is not None:
            step_metrics['lr'] = self.optimizer.state_dict()['param_groups'][0]['lr']
        return step_losses, step_metrics

optimizer = bnb.optim.adamw.AdamW(peft_model.parameters(), lr=6e-03, is_paged=True)

# 注意：实际生产中建议使用 transformers.Trainer 简化流程
# keras_model = KerasModel(peft_model, loss_fn=None, optimizer=optimizer)
# ckpt_path = 'qwen7b_multirounds'
# keras_model.fit(train_data=dl_train, val_data=dl_val, epochs=100, patience=15, monitor='val_loss', mode='min', ckpt_path=ckpt_path)

from peft import PeftModel

ckpt_path = 'qwen7b_multirounds'

# 加载原始模型
model_base = AutoModelForCausalLM.from_pretrained(
    'Qwen/Qwen-7b-Chat',
    trust_remote_code=True
)

# 加载 Adapter
peft_model = PeftModel.from_pretrained(model_base, ckpt_path)
model_new = peft_model.merge_and_unload()

save_path = 'qwen_torchkeras'
tokenizer.save_pretrained(save_path)
model_new.save_pretrained(save_path)

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig

model_name_or_path = 'qwen_torchkeras'

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name_or_path,
    device_map="auto",
    torch_dtype=torch.float16,
    trust_remote_code=True
)
model.generation_config = GenerationConfig.from_pretrained(model_name_or_path)

# 测试输入
prompt = "你是谁？"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(**model_inputs, max_new_tokens=100)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
output_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(output_text)

Qwen7b 大模型高效微调实战指南

Qwen7b 大模型高效微调实战指南

一、环境准备与依赖安装

二、数据集构建与预处理

1. 数据格式设计

2. 代码实现

更多推荐文章

相关免费在线工具

3. 数据加载器配置

三、模型加载与量化配置

四、PEFT 适配器配置

五、训练过程管理

六、模型保存与合并

七、推理测试

八、常见问题与优化建议

更多推荐文章

相关免费在线工具

Qwen7b 大模型高效微调实战指南

Qwen7b 大模型高效微调实战指南

一、环境准备与依赖安装

二、数据集构建与预处理

1. 数据格式设计

2. 代码实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 数据加载器配置

三、模型加载与量化配置

四、PEFT 适配器配置

五、训练过程管理

六、模型保存与合并

七、推理测试

八、常见问题与优化建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具