大模型 LLM 微调经验与总结 | 极客日志

PythonAI算法

大模型 LLM 微调经验与总结

综述由AI生成分享了 ChatGLM-6B 大模型微调的实战经验，涵盖 Freeze、P-Tuning 和 LoRA 三种主流方法的技术原理与代码实现。通过汽车工业故障模式关系抽取任务进行实验，对比了各方法在显存占用、训练耗时及 F1 分数上的表现。结果显示 PT 方法效果最佳，LoRA 效率较高，且单指令微调未导致灾难性遗忘。文章还汇总了常用的中文开源大模型、指令数据集及项目资源，并提供了显存溢出处理、训练稳定性优化等常见问题解决方案，适合希望深入理解大模型微调流程的开发者参考。

Pythonist发布于 2025/2/7更新于 2026/6/221 浏览

大模型 LLM 微调经验与总结

前言

随着大型语言模型（LLM）技术的快速发展，开源社区涌现了大量优秀的微调项目。本文基于 ChatGLM-6B 模型的微调实践，分享 Freeze、P-Tuning 和 LoRA 三种主流方法的实战经验，并汇总了相关的开源资源。实验表明，在特定任务下采用单指令微调，模型并未出现明显的灾难性遗忘现象。

项目代码地址：https://github.com/liucongg/ChatGLM-Finetuning

ChatGLM-6B 模型微调方法

模型参数量越大，对显存的要求越高。目前主流的轻量化微调方法包括 Freeze（参数冻结）、P-Tuning（软提示）和 LoRA（低秩适配）。以下以信息抽取任务为例，介绍这三种方法的具体实现。

1. Freeze 方法

Freeze 方法即参数冻结，通过固定原始模型的大部分参数，仅训练部分层或模块，从而实现在单卡或不进行张量并行（TP）的情况下进行训练。

核心逻辑： 遍历模型参数，根据名称匹配需要冻结的层。例如，保留后几层的可训练性，冻结前面的层。

for name, param in model.named_parameters():  
    if not any(nd in name for nd in ["layers.27", "layers.26", "layers.25", "layers.24", "layers.23"]):  
        param.requires_grad = False

训练配置： 使用 DeepSpeed 进行加速训练。主要参数包括训练路径、模型目录、训练轮数、批次大小、梯度累积步数等。

CUDA_VISIBLE_DEVICES=0 deepspeed finetuning_freeze.py --num_train_epochs 5 --train_batch_size 2

推理代码： 参考 predict_freeze.py，根据具体任务的评价标准进行预测。

2. P-Tuning 方法

P-Tuning 是一种针对大模型的 soft-prompt 方法，通过在 Embedding 层或每一层前添加可训练的连续向量来引导模型。

版本区别：

P-Tuning: 仅对大模型的 Embedding 加入新的参数。
P-Tuning-V2: 将大模型的 Embedding 和每一层前都加上新的参数，效果通常更好。

核心配置：

config = ChatGLMConfig.from_pretrained(args.model_dir)  
config.pre_seq_len = args.pre_seq_len  
config.prefix_projection = args.prefix_projection  
  
model = ChatGLMForConditionalGeneration.from_pretrained(args.model_dir, config=config)  
  
for name, param  model.named_parameters():  
      (nd  name  nd  []):  
        param.requires_grad =

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

CUDA_VISIBLE_DEVICES=0 deepspeed finetuning_pt.py --num_train_epochs 5 --train_batch_size 2 --pre_seq_len 16

model = ChatGLMForConditionalGeneration.from_pretrained(args.model_dir)  
config = LoraConfig(r=args.lora_r,  
                    lora_alpha=32,  
                    target_modules=["query_key_value"],  
                    lora_dropout=0.1,  
                    bias="none",  
                    task_type="CAUSAL_LM",  
                    inference_mode=False,  
                    )  
  
model = get_peft_model(model, config)

prompt_text：你现在是一个信息抽取模型，请你帮我抽取出关系内容为"性能故障", "部件故障", "组成"和 "检测工具"的相关三元组，三元组内部用"_"连接，三元组之间用\n分割。文本：  
输入：故障现象：发动机水温高，风扇始终是低速转动，高速档不工作，开空调尤其如此。  
输出：发动机_部件故障_水温高\n风扇_部件故障_低速转动

微调方法	PT-Only-Embedding	PT	Freeze	Lora
显卡占用	37G	56G	24G	39G
总参数	6.259B	7.211B	6.255B	6.259B
可训练参数占比	0.0586%	13.26%	16.10%	0.0586%
训练耗时	20min	52min	46min	25min
测试结果 F1	0.0	0.6283	0.5675	0.5359

大模型 LLM 微调经验与总结

大模型 LLM 微调经验与总结

前言

ChatGLM-6B 模型微调方法

1. Freeze 方法

2. P-Tuning 方法

更多推荐文章

相关免费在线工具

3. LoRA 方法

三元组抽取实验设置

实验结果分析

中文开源大模型与资源汇总

中文开源大模型

中文开源指令数据

热门开源项目

常见问题与最佳实践

1. 显存溢出 (OOM) 处理

2. 训练稳定性

3. 推理优化

总结

更多推荐文章

相关免费在线工具

大模型 LLM 微调经验与总结

大模型 LLM 微调经验与总结

前言

ChatGLM-6B 模型微调方法

1. Freeze 方法

2. P-Tuning 方法

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. LoRA 方法

三元组抽取实验设置

实验结果分析

中文开源大模型与资源汇总

中文开源大模型

中文开源指令数据

热门开源项目

常见问题与最佳实践

1. 显存溢出 (OOM) 处理

2. 训练稳定性

3. 推理优化

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具