大模型微调技术分类与 LoRA 实践指南

综述由AI生成系统梳理了大语言模型微调技术，涵盖全参微调与参数高效微调（PEFT）的分类对比。详细介绍了 Adapter、LoRA、QLoRA、Prefix Tuning 等核心方法的原理与适用场景，并阐述了预训练、有监督微调（SFT）及强化学习（RLHF）的训练流程。文章提供了基于 Python 和 Hugging Face 生态的 LoRA 微调实战代码，包含环境配置、参数设置及训练步骤。此外，还补充了数据准备规范、评估指标体系及常见问题解决方案，为大模型落地应用提供完整的技术参考。

数字游民发布于 2025/2/6更新于 2026/6/217 浏览

前言

随着大语言模型（LLM）技术的飞速发展，如何高效地利用预训练模型解决特定领域任务成为业界关注的核心问题。全量微调虽然效果显著，但计算成本高昂；参数高效微调（PEFT）则通过更新少量参数实现快速适配。本文将系统梳理大模型微调的技术分类、核心原理及实践流程。

图 1. 大模型微调技术分类

一、微调分类

1. 按微调参数规模划分

1.1. 全参微调（Full Parameter Fine-Tuning, FPFT）

全参微调是指使用预训练权重作为初始化权重，在特定数据集上继续训练，更新模型中的所有参数。这种方法能够最大程度地适应新任务的数据分布，但需要消耗大量的显存和算力资源，通常仅适用于拥有充足硬件资源的场景。

1.2. 低参微调（Parameter Efficient Fine-Tuning, PEFT）

低参微调旨在用更少的计算资源完成参数的更新。其核心思想是只更新部分参数，或者通过对参数进行某种结构化约束（如稀疏化或低秩近似解）来降低微调的参数量。PEFT 方法在保持预训练模型通用知识的同时，显著降低了训练成本和显存占用，使得在消费级显卡上也能进行大模型微调。

经典的低参微调方法包括： Adapter（谷歌 2019）、LoRA（微软 2021）、QLoRA（微软 2023）、Prefix Tuning（斯坦福 2021）、Prompt Tuning（谷歌 2021）、P-Tuning（清华 2022）、P-Tuning v2（清华 2022）。以下将对上述多种低参微调技术进行详细整理。

1.2.1. Adapter

Adapter 微调方法涉及向预训练模型中添加小型、任务特定的模块（适配器）。这些适配器被插入到原始模型的层之间（通常在 Transformer 的 Feed-Forward 网络之后），并使用任务特定的数据进行训练。原始模型保持冻结状态，使其具有高效性并保留其通用知识，同时适应特定任务。Adapter 的优势在于模块化设计，便于多任务学习时的参数复用。

图 2. Adapter 微调原理

1.2.2. LoRA

LoRA（Low-Rank Adaptation）是一种基于低秩矩阵分解的微调策略。它假设模型权重的变化具有较低的内蕴维度，因此不直接更新所有参数，而是将权重增量分解为两个低秩矩阵 $A$ 和 $B$ 的乘积（$ riangle W = BA$）。这样可以显著减少需要训练的参数数量，并保持原始模型结构不变，以较小的成本实现对下游任务的良好适应。LoRA 是目前应用最广泛的 PEFT 方法之一。

图 3. LoRA 微调原理

1.2.3. QLoRA

QLoRA（Quantized Low-Rank Adaptation）是 LoRA 方法的一种变体，特别针对量化场景设计。它在 4-bit 量化基础上结合了低秩矩阵分解，进一步压缩模型大小并降低计算成本。QLoRA 允许在单张消费级 GPU 上微调 65B 甚至更大的模型，极大地降低了大模型微调的门槛。

图 4. QLoRA 微调原理

1.2.4. Prefix Tuning

该方法为预训练语言模型引入一个可学习的'前缀'向量序列，在生成过程中将其与输入文本拼接作为模型的额外输入。模型只需优化这个固定长度的前缀向量，就能引导模型在不同的下游任务上产生合适的结果，避免了对模型主体参数的大规模更新。Prefix Tuning 保留了离散提示词的可解释性，同时具备连续提示词的灵活性。

图 5. Prefix Tuning 微调原理

1.2.5. Prompt Tuning

Prompt Tuning 专注于对提示（prompt）的微调，即将待解决的任务转化为预训练模型熟悉的格式（如同自然语言问答）。这种方法只更新少量被称为'prompt token'的参数，其余大部分参数保持固定。相比人工设计的硬提示词，Prompt Tuning 学习到的软提示词能更好地捕捉任务语义。

图 6. Prompt Tuning 微调原理

1.2.6. P-Tuning

P-Tuning 是 Prompt Tuning 的一种扩展形式，通过将连续的向量（称为'软提示'）插入到模型输入中，替代手工设计的离散提示词。这种连续的提示向量经过训练后，能够更灵活且有效地指导模型处理各种下游任务，同时大幅减少需要更新的参数量。P-Tuning 引入了重参数化编码器来增强表达能力。

图 7. P-Tuning 微调原理

1.2.7. P-Tuning v2

P-Tuning V2 在 P-Tuning V1 的基础上进行了多项改进：

：在每一层都加入了 Prompts tokens 作为输入，而不是仅仅加在输入层，这与 Prefix Tuning 的做法相同。这样得到了更多可学习的参数，且更深层结构中的 Prompt 能给模型预测带来更直接的影响。

前言

图 1. 大模型微调技术分类

一、微调分类

1. 按微调参数规模划分

1.1. 全参微调（Full Parameter Fine-Tuning, FPFT）

1.2. 低参微调（Parameter Efficient Fine-Tuning, PEFT）

1.2.1. Adapter

图 2. Adapter 微调原理

1.2.2. LoRA

图 3. LoRA 微调原理

1.2.3. QLoRA

图 4. QLoRA 微调原理

1.2.4. Prefix Tuning

图 5. Prefix Tuning 微调原理

1.2.5. Prompt Tuning

图 6. Prompt Tuning 微调原理

1.2.6. P-Tuning

图 7. P-Tuning 微调原理

1.2.7. P-Tuning v2

P-Tuning V2 在 P-Tuning V1 的基础上进行了多项改进：

：在每一层都加入了 Prompts tokens 作为输入，而不是仅仅加在输入层，这与 Prefix Tuning 的做法相同。这样得到了更多可学习的参数，且更深层结构中的 Prompt 能给模型预测带来更直接的影响。

import transformers import torch from torch.utils.data import Dataset from peft import LoraConfig, TaskType, get_peft_model # （1）加载微调前的原 model & tokenizer # 注意：需确保已安装 transformers 和 accelerate 库 model_name_or_path = "baichuan-inc/Baichuan2-7B-Base" # 替换为实际模型路径 training_args = type('obj', (object,), {'cache_dir': './cache', 'model_max_length': 2048})() model = transformers.AutoModelForCausalLM.from_pretrained( model_name_or_path, trust_remote_code=True, cache_dir=training_args.cache_dir, device_map="auto" # 自动分配设备 ) tokenizer = transformers.AutoTokenizer.from_pretrained( model_name_or_path, use_fast=False, trust_remote_code=True, model_max_length=training_args.model_max_length, cache_dir=training_args.cache_dir ) # （2）LoRA 微调参数配置 # r: 低秩矩阵的秩，越大能力越强但参数越多 # lora_alpha: 缩放系数，通常设为 2*r peft_config = LoraConfig( task_type=TaskType.CAUSAL_LM, target_modules=["W_pack", "q_proj", "v_proj"], # 指定要微调的层 inference_mode=False, r=8, lora_alpha=32, lora_dropout=0.1 ) # （3）给 model 配置上 LoRA 参数 model.enable_input_require_grads() # 开启梯度记录 model = get_peft_model(model, peft_config) model.print_trainable_parameters() # 打印可训练参数比例 # （4）加载新的微调数据集 # 此处假设已定义 SupervisedDataset 类，负责处理指令数据 class SupervisedDataset(Dataset): def __init__(self, data_path, tokenizer, max_length): self.tokenizer = tokenizer self.max_length = max_length # 加载数据逻辑... data_path = "./data/train.json" dataset = SupervisedDataset(data_path, tokenizer, training_args.model_max_length) # （5）汇总 model、tokenizer、training_args & dataset trainer = transformers.Trainer( model=model, tokenizer=tokenizer, train_dataset=dataset, args=transformers.TrainingArguments( output_dir="./output", per_device_train_batch_size=4, gradient_accumulation_steps=4, learning_rate=2e-4, num_train_epochs=3, fp16=True, logging_steps=10, save_strategy="epoch" ) ) # （6）模型微调训练 & 微调结果保存 trainer.train() trainer.save_state() trainer.save_model(output_dir=training_args.output_dir)

大模型微调技术分类与 LoRA 实践指南

前言

一、微调分类

1. 按微调参数规模划分

1.1. 全参微调（Full Parameter Fine-Tuning, FPFT）

1.2. 低参微调（Parameter Efficient Fine-Tuning, PEFT）

1.2.1. Adapter

1.2.2. LoRA

1.2.3. QLoRA

1.2.4. Prefix Tuning

1.2.5. Prompt Tuning

1.2.6. P-Tuning

1.2.7. P-Tuning v2

大模型微调技术分类与 LoRA 实践指南

前言

一、微调分类

1. 按微调参数规模划分

1.1. 全参微调（Full Parameter Fine-Tuning, FPFT）

1.2. 低参微调（Parameter Efficient Fine-Tuning, PEFT）

1.2.1. Adapter

1.2.2. LoRA

1.2.3. QLoRA

1.2.4. Prefix Tuning

1.2.5. Prompt Tuning

1.2.6. P-Tuning

1.2.7. P-Tuning v2

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 按训练流程划分

2.1. 上下文学习 (In-Context Learning, ICL)

2.2. 有监督微调（Supervised Fine-Tuning, SFT）

2.3. 基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）

3. 按训练方式划分

3.1. 有监督微调（Supervised Fine-Tuning, SFT）

3.2. 指令微调（Instruction Tuning, IT）

4. 微调优势

4.1. 定制化模型

4.2. 提高资源利用率

4.3. 性能提升

4.4. 数据优化

二、微调实践（以 LoRA 为例）

三、数据准备与评估

1. 数据准备

2. 评估指标

四、常见问题与最佳实践

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具