大模型微调 PEFT vs LLaMA-Factory

大模型微调 PEFT vs LLaMA-Factory:两种微调(SFT)模式深度对比与原理解析

在 LLM(大语言模型)微调的圈子里,开发者通常会接触到两种截然不同的流派:一种是原生代码流,即直接使用 HuggingFace Transformers 和 PEFT 库编写 Python 代码;另一种是框架工具流,以 LLaMA-Factory 为代表的集成化工具。


一、 两种微调模式简介

1. PEFT

核心逻辑:开发者需要自己处理数据清洗、Tokenizer 编码、Label Masking(标签掩码)、模型加载、LoRA 配置挂载以及训练循环。

2. LLaMA-Factory

这是目前工业界和学术界快速迭代的首选。
核心逻辑:将上述繁琐的代码封装成“黑盒”,通过配置驱动(YAML 或 命令行参数)来控制训练。


二、 核心实现流程对比

为了直观对比,我们以 Qwen (通义千问) 模型的 LoRA 微调为例。

1. 数据预处理 (最本质的区别)

PEFT数据预处理:
你需要手动编写函数来处理 Prompt 格式(如 <|im_start|>)和 Loss 计算逻辑(Masking)。

# 摘自微调 Notebook:手动处理对话模板和掩码defpreprocess_multi_turn_qwen(example):# ... 省略部分代码 ...for msg in convs:# 手动添加特殊 Token prefix =f"<|im_start|>{role}\n"# 编码 prefix_ids = tokenizer(prefix, add_special_tokens=False)["input_ids"] content_ids = tokenizer(content, add_special_tokens=False)["input_ids"]# 核心难点:手动控制 Label,-100 表示不计算 Lossif role =="assistant":# 只有机器人的回答计算梯度 turn_labels =[-100]*len(prefix_ids)+ content_ids + suffix_ids else:# 用户和 System 的话不计算梯度 turn_labels =[-100]*len(current_turn_ids)return{"input_ids": input_ids,"labels": labels}

LLaMA-Factory:
不需要关心 input_ids 怎么拼,只需要指定模板名称。

# 命令行参数--template qwen 

原理: 框架内部维护了一套 template 注册表,自动帮你完成了上述 Python 代码中复杂的 Token 拼接和 Label Masking 工作。


2. 模型加载与 LoRA 挂载

PEFT:
需要显式地定义配置,并手动修改模型结构。

from peft import LoraConfig, get_peft_model # 1. 定义配置 config = LoraConfig( task_type=TaskType.CAUSAL_LM, target_modules=["q_proj","k_proj","v_proj","o_proj"], r=8, lora_alpha=16)# 2. 加载基座模型 model = AutoModelForCausalLM.from_pretrained(...)# 3. 挂载 model = get_peft_model(model, config) model.print_trainable_parameters()# 打印参数量

LLaMA-Factory :
参数化配置,自动寻找目标模块。

--finetuning_type lora \--lora_rank8\--lora_alpha16\--lora_target all # 自动识别所有线性层

3. 训练

PEFT:
使用 HF Trainer。如果想用高级功能(如 DeepSpeed、FlashAttention、QLoRA),你需要自己写代码配置 TrainingArgumentsBitsAndBytesConfig,非常容易报错(如 OOM、类型不匹配)。

LLaMA-Factory:
开箱即用。

  • 省显存--flash_attn auto
  • 量化--quantization_bit 4
  • 可视化--plot_loss True
  • 强化学习:直接把 --stage sft 改成 --stage dpo 即可无缝切换算法。

模型微调过程中的关键参数:
1、r ( 秩 ):LoRA采用的低秩分解矩阵,关键的一个参数就是矩阵的秩r, 表示这个矩阵蕴含多少有用的信息。
2、alpha (涉及权重矩阵的更新幅度): alpha/r * BA, 可知alpha可以控制lora微调权重的幅度,可以是r的2倍或者4倍。
3、target_modules ( 微调的模块 ): 一般模型微调,调整的可能只有q_proj、k_proj、v_proj这三个权重矩阵,如果考虑微调FFN层,也可以增加up_proj、down_proj层。当然,如果你在微调过程中,想要实现让非思考模型先思考再输出,可以考虑增加特殊token,如果一旦增加特殊的token之后,一定要调整Emedding层embed_tokens,不然非常可能会输出乱码(采样概率相差不大导致的)。
4、dropout率:避免模型微调训练过拟合。


三、 深度对比总结表

维度PEFTLLaMA-Factory
上手难度⭐⭐⭐⭐ (高)⭐⭐ (低)
灵活性极高 (可修改模型底层前向传播)中等 (受限于框架提供的参数)
数据处理白盒 (完全透明,需手写逻辑)黑盒 (模板化,依赖 preset)
多轮对话需手写复杂的掩码(Mask)逻辑自动处理 user/assistant 掩码
高级特性需手动集成 DeepSpeed/FlashAttn一键开启,集成度高
算法切换SFT转DPO需要重写大量代码修改 --stage 参数即可
Debug难度容易出现 Tensor 形状对齐错误主要是环境依赖报错

四、PEFT与LlamaFactory在Autodl的实现

PEFT:
1、手动提前下载模型,可以提前配置ModelScope的镜像源
2、数据预处理,按照模型的chat模板构造数据集并Tokenization化
3、配置微调的LoRA参数
4、向模型中添加LoRA模块
5、可以通过Swanlab可视化训练过程
参考:PEFT微调

LlamaFactory:
命令行执行:
1、使用modelscope镜像源下载模型

exportUSE_MODELSCOPE_HUB=1

2、使用命令行执行训练,下面是具体参数(DPO,强化学习微调):

llamafactory-cli train \--stage dpo \--do_train True \--model_name_or_path qwen/Qwen2.5-0.5B-Instruct \--finetuning_type lora \--template qwen \--dataset dpo_zh_demo \--dataset_dir data \--output_dir saves/Qwen2.5-0.5B-Instruct/lora/train_dpo_fix \--cutoff_len1024\--per_device_train_batch_size1\--gradient_accumulation_steps16\--learning_rate 5e-5 \--num_train_epochs3.0\--lr_scheduler_type cosine \--logging_steps5\--save_steps100\--fp16 True \--gradient_checkpointing True \--lora_rank8\--lora_alpha16\--lora_target all \--pref_beta0.1\--plot_loss True \--trust_remote_code True 

3、微调之后需要加载lora微调后的参数和原始权重,进行Chat对话:

llamafactory-cli chat \--model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \--adapter_name_or_path saves/Qwen2.5-0.5B-Instruct/lora/train_dpo_fix \--template qwen \--finetuning_type lora 

五、 结语

LLaMA-Factory 本质上就是一套写得非常健壮、非常全面的“原生代码”

它在底层依然调用了 transformerspeft。对于初学者,建议先用 LLaMA-Factory 跑通全流程,建立信心;当你发现框架无法满足你的魔改需求时,再深入阅读源码或编写自己的 Training Script。

提示:在使用 LLaMA-Factory 时,如果遇到报错,往往是因为环境变量或依赖版本问题(如 CUDA 版本不匹配);而在使用原生代码时,报错通常是因为 Tensor 维度不匹配或显存溢出。

Read more

前端SSG:静态站点生成的艺术

前端SSG:静态站点生成的艺术 毒舌时刻 前端SSG?这不是给博客用的吗? "我的应用需要动态内容,SSG不适合"——结果首屏加载慢,SEO差, "SSG就是静态HTML,太简单了"——结果构建时间长,数据更新困难, "我用SSR就够了"——结果服务器压力大,响应慢。 醒醒吧,SSG不是简单的静态HTML,而是一种现代化的前端架构! 为什么你需要这个? * 性能优异:静态文件加载快,无需服务器渲染 * SEO友好:所有内容都是静态的,搜索引擎容易收录 * 部署简单:可以部署到任何静态文件服务器 * 安全性高:没有服务器端代码,减少攻击面 反面教材 // 反面教材:纯静态HTML <!DOCTYPE html> <html> <head>

Backend For Frontend(BFF)架构介绍(为前端量身定制的后端服务)由前端维护

文章目录 * Backend For Frontend(BFF):为前端量身定制的后端服务 * 一、痛点:微服务架构下的前端困境 * 二、什么是 BFF? * 三、BFF 的核心价值 * 四、架构实践要点 * 典型部署流程 * 技术选型建议 * 与 API Gateway 的区别 * 五、何时该用 BFF?何时慎用? * ✅ 推荐场景 * ⚠️ 谨慎场景 * 六、写在最后 Backend For Frontend(BFF):为前端量身定制的后端服务 当微服务遇上多端开发,前端开发者是否还在为“拼接口”而深夜加班?BFF 可能是你的破局关键。 一、痛点:微服务架构下的前端困境 在微服务盛行的今天,一个简单的商品详情页可能需要调用: * 商品服务(基础信息) * 评价服务(

前端WebSocket实战:别再只会用HTTP了

前端WebSocket实战:别再只会用HTTP了

前端WebSocket实战:别再只会用HTTP了 毒舌时刻 这代码写得跟网红滤镜似的——仅供参考。 各位前端同行,咱们今天聊聊前端WebSocket。别告诉我你还在用轮询获取实时数据,那感觉就像每隔一分钟就去敲门问"好了没"——烦人又低效。 为什么你需要WebSocket 最近看到一个项目,实时聊天功能用轮询实现,每秒请求一次服务器,我差点当场去世。我就想问:你是在做实时通信还是在做DDoS攻击? 反面教材 // 反面教材:轮询获取数据 function startPolling() { setInterval(async () => { const response = await fetch('/api/messages'); const messages = await response.json(); updateMessages(messages); }, 1000); // 每秒请求一次 } // 服务器:求放过 // 带宽:我扛不住了 毒舌点评:

DeepSeek-OCR-WEBUI私有化部署实战|一键启动高效OCR服务

DeepSeek-OCR-WEBUI私有化部署实战|一键启动高效OCR服务 1. 背景与需求分析 光学字符识别(OCR)技术在企业级文档处理、金融票据自动化、教育数字化等场景中扮演着关键角色。随着大模型技术的发展,传统OCR系统在复杂背景、手写体、低分辨率图像中的局限性日益凸显。DeepSeek-OCR作为国产自研的高性能OCR引擎,融合了CNN与注意力机制,在中文文本识别精度上表现尤为突出。 然而,官方提供的推理代码缺乏可视化交互界面,导致调试和使用成本较高。为此,社区开发者基于DeepSeek-OCR构建了DeepSeek-OCR-WEBUI——一个功能完整、支持多模式识别的Web应用,极大提升了用户体验和工程落地效率。 本文将围绕该镜像的私有化部署展开,详细介绍从环境准备到服务上线的全流程实践,帮助开发者快速搭建本地化OCR服务。 2. 技术架构与核心优势 2.1 系统整体架构 DeepSeek-OCR-WEBUI采用模块化设计,主要由以下组件构成: * 前端层:Gradio构建的交互式Web界面,支持拖拽上传、结果高亮、批量处理 * 推理引擎层:基于tr