DeepSeek 大模型微调理论详解与参数配置 | 极客日志

PythonAI算法

DeepSeek 大模型微调理论详解与参数配置

DeepSeek 大模型微调涉及 LoRA 参数设置、多轮对话数据构建及训练超参数调整。文章详细介绍了三种多轮对话数据标签构造方式的优劣，解释了 Masked Attention 机制如何避免轮次干扰。重点阐述了 LoRA 配置类 LoraConfig 中 target_modules、r、alpha、dropout、task_type 及 bias 参数的含义与推荐值，分析了 Attention 层与 MLP 层作为微调目标的原理。此外补充了学习率、批次大小及优化器等常规训练超参数的最佳实践，为高效微调提供完整理论指导。

RustyLab发布于 2025/2/6更新于 2026/7/1650 浏览

DeepSeek 大模型微调理论详解与参数配置

在大模型的微调过程中，**LoRA（低秩适配）**参数设置是提升训练效率和性能的关键。通过减少需更新的参数量，LoRA 能够在维持模型性能的同时显著降低计算成本。

然而，LoRA 并非唯一影响训练效果的因素。诸如学习率、批次大小以及优化器（如 AdamW）等参数同样在微调过程中起着至关重要的作用。

学习率决定了模型每次更新的幅度，批次大小则影响了每次训练中样本的处理量，而优化器则确保模型参数的平稳更新。了解并灵活调整这些训练参数，不仅能帮助你在微调过程中得心应手，更能快速提升训练效果。

本文将深入探讨多轮对话数据集的微调方法，详细解析 LoRA 参数原理及训练超参数的配置策略。

1. 多轮对话数据构建

多轮对话微调其实和单轮对话（或者说指令数据）差不多，在我看来其实类似于多个指令数据的组合。单轮对话数据处理的时候只需要处理输入和输出即可，训练的时候输入置为 -100，输出不变，而多轮对话微调数据集以及标签的构造方式则更为复杂。

1.1 训练不充分方案

第一种方法是，只把最后一轮机器人的回复作为要学习的标签，其它地方作为语言模型概率预测的 condition，无需学习，赋值为 -100，忽略这些地方的 loss。

inputs = <user1> <assistant1> <user2> <assistant2> <user3> <assistant3>
labels = <-100> <-100> <-100> <-100> <-100> <assistant3>

这种方法由于没有对中间轮次机器人回复的信息进行学习，因此存在着严重的信息丢失，是非常不可取的。

1.2 训练不高效方案

第二种方法是，把一个多轮对话拆解，构造成多条样本，以便对机器人的每轮回复都能学习。

inputs1 = <user1> <assistant1>
labels1 = <-100> <assistant1>

inputs2 = <user1> <assistant1> <user2> <assistant2>
labels2 = <-100> <-100> <-100> <assistant2>

inputs3 = <user1> <>    
labels3 = <-100> <-100> <-100> <-100> <-100>

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

inputs = <user1> <assistant1> <user2> <assistant2> <user3> <assistant3>
labels = <-100> <assistant1> <-100> <assistant2> <-100> <assistant3>

from peft import LoraConfig, TaskType

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    target_modules=['up_proj', 'gate_proj', 'q_proj', 'o_proj', 'down_proj', 'v_proj', 'k_proj'],
    task_type=TaskType.CAUSAL_LM,
    inference_mode=False  # 训练模式
)

# 查看模型层的代码如下
# 本文使用的是大模型的通用对话功能，因此导入 AutoModelForCausalLM 查看
from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(model_name)
print(model)

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(102400, 4096)
    (layers): ModuleList(
      (0-29): 30 x LlamaDecoderLayer(
        (self_attn): LlamaSdpaAttention(
          (q_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (v_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (o_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear(in_features=4096, out_features=11008, bias=False)
          (up_proj): Linear(in_features=4096, out_features=11008, bias=False)
          (down_proj): Linear(in_features=11008, out_features=4096, bias=False)
          (act_fn): SiLU()
        )
        ...
      )
    )
  )
)

DeepSeek 大模型微调理论详解与参数配置

DeepSeek 大模型微调理论详解与参数配置

1. 多轮对话数据构建

1.1 训练不充分方案

1.2 训练不高效方案

更多推荐文章

相关免费在线工具

1.3 合适的数据组合方式

2. 各实验参数原理

2.1 LoRA 参数详解

LoraConfig 各个参数设置

target_modules

r、alpha、dropout

task_type

bias

2.2 训练超参数设置

学习率（Learning Rate）

批次大小（Batch Size）

优化器（Optimizer）

2.3 总结

更多推荐文章

相关免费在线工具

DeepSeek 大模型微调理论详解与参数配置

DeepSeek 大模型微调理论详解与参数配置

1. 多轮对话数据构建

1.1 训练不充分方案

1.2 训练不高效方案

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.3 合适的数据组合方式

2. 各实验参数原理

2.1 LoRA 参数详解

LoraConfig 各个参数设置

target_modules

r、alpha、dropout

task_type

bias

2.2 训练超参数设置

学习率（Learning Rate）

批次大小（Batch Size）

优化器（Optimizer）

2.3 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具