PythonAI算法

LLama-Factory 实战：基于自建数据集微调 Qwen7B 模型

综述由AI生成使用 LLaMA-Factory 框架微调 Qwen7B 模型的完整流程。内容包括环境安装、自定义数据集构建与注册、YAML 配置文件详解、训练命令执行、LoRA 权重合并及模型推理测试。文章还深入分析了超参数调节策略、数据质量对效果的影响、灾难性遗忘的规避方法以及多任务学习的注意事项，为大模型垂直领域应用提供技术参考。

数字游民发布于 2025/2/6更新于 2026/6/218 浏览

LLama-Factory 实战：基于自建数据集微调 Qwen7B 模型

一、项目简介

LLaMA-Factory 是一个高效的大模型训练框架，支持多种主流大模型的微调与推理。它提供了丰富的训练方法、精度选项及算法支持，旨在降低大模型应用的门槛。

项目特色

多种模型：支持 LLaMA、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等主流开源模型。
集成方法：涵盖（增量）预训练、指令监督微调（SFT）、奖励模型训练、PPO/DPO/KTO/ORPO 等对齐训练。
多种精度：支持 16 比特全参数微调、冻结微调、LoRA 微调以及基于 AQLM/AWQ/GPTQ 的 2/3/4/5/6/8 比特 QLoRA 微调。
先进算法：内置 GaLore、BAdam、DoRA、LongLoRA、LoRA+、PiSSA 等优化算法。
实用技巧：集成 FlashAttention-2、Unsloth、RoPE scaling、NEFTune 等技术提升效率。
实验监控：支持 LlamaBoard、TensorBoard、Wandb、MLflow 等监控工具。
极速推理：提供基于 vLLM 的 OpenAI 风格 API、浏览器界面和命令行接口。

二、硬件依赖

以下是不同微调方法及模型规模下的显存估算值（仅供参考）：

方法	精度	7B	13B	30B	70B
Full	AMP	120GB	240GB	600GB	1200GB
Full	16bit	60GB	120GB	300GB	600GB
Freeze	16bit	20GB	40GB	80GB	200GB
LoRA	16bit	16GB	32GB	64GB	160GB
QLoRA	8bit	10GB	20GB	40GB	80GB
QLoRA	4bit

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

pip install -e ".[torch,metrics]"

[
  {
    "instruction": "你是一个舆情分析专家，擅长分析一段文字的舆情类型。现在请你判断下述语句，任务 1，是否与负面新闻，你的回答只能从是或不是选择一个，任务 2，是否与负面情绪，你的回答只能从是或不是中选择一个。例如：待判断语句：今天合肥的天气真好。你的回复：1，不是，2，不是。现在待判断语句为：{}",
    "input": "2023 年 3 月 16 日 14 时 55 分许，鄂温克族自治旗伊敏河镇发生一起一般事故，造成一人死亡，直接经济损失人民币 200 万元。",
    "output": "任务 1：是，原文中提到了负面新闻，这些词汇与负面新闻相关。任务 2：不是，由于原文没有提到负面情绪，这和没有关系，因此不是。"
  }
]

{
  "my_train_data": {
    "file_name": "my_train_data.json",
    "columns": {
      "prompt": "instruction",
      "query": "input",
      "response": "output"
    }
  }
}

### model
model_name_or_path: /path/to/qwen-7b-chat

### method
stage: sft
do_train: true
finetuning_type: lora
lora_target: all

### dataset
dataset: my_train_data
template: qwen
cutoff_len: 4096
max_samples: 1000
overwrite_cache: true
preprocessing_num_workers: 16

### output
output_dir: saves/qwen/lora/sft
logging_steps: 10
save_steps: 100
plot_loss: true
overwrite_output_dir: true

### train
per_device_train_batch_size: 1
gradient_accumulation_steps: 8
learning_rate: 1.0e-4
num_train_epochs: 3.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
bf16: true
ddp_timeout: 180000000

### eval
val_size: 0.1
per_device_eval_batch_size: 1
eval_strategy: steps
eval_steps: 500

llamafactory-cli train examples/train_lora/mytrain_lora_sft.yaml

CUDA_VISIBLE_DEVICES=0,1,2,3 python src/train_bash.py \
  --stage sft \
  --do_train \
  --model_name_or_path /app/model \
  --dataset my_train_data \
  --finetuning_type lora \
  --lora_target q_proj,v_proj \
  --output_dir /app/output \
  --overwrite_cache \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 1 \
  --lr_scheduler_type cosine \
  --logging_steps 10 \
  --save_steps 1000 \
  --learning_rate 5e-5 \
  --num_train_epochs 3.0 \
  --template qwen

llamafactory-cli export examples/merge_lora/my_lora_sft.yaml

### model
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
adapter_name_or_path: saves/llama3-8b/lora/sft
template: llama3
finetuning_type: lora

### export
export_dir: models/llama3_lora_sft
export_size: 2
export_device: cpu
export_legacy_format: false

CUDA_VISIBLE_DEVICES=0 python /app/src/export_model.py \
  --model_name_or_path /app/model/ \
  --adapter_name_or_path /app/output/checkpoint-3000/ \
  --template default \
  --finetuning_type lora \
  --export_dir /app/lora_result/20240422_1519/ \
  --export_size 2 \
  --export_legacy_format False

llamafactory-cli chat examples/inference/llama3_lora_sft.yaml

python /app/src/cli_demo.py \
  --model_name_or_path /app/lora_result/20240422_1519/ \
  --template=qwen

LLama-Factory 实战：基于自建数据集微调 Qwen7B 模型

LLama-Factory 实战：基于自建数据集微调 Qwen7B 模型

一、项目简介

项目特色

二、硬件依赖

LLama-Factory 实战：基于自建数据集微调 Qwen7B 模型

LLama-Factory 实战：基于自建数据集微调 Qwen7B 模型

一、项目简介

项目特色

二、硬件依赖

更多推荐文章

相关免费在线工具

三、环境安装

3.1 克隆项目

3.2 安装依赖

四、构建自己的数据集

注册数据集

五、修改配置文件 (YAML)

六、开始训练

6.1 使用 CLI 命令

6.2 使用 Python 脚本

七、合并模型

八、模型推理

8.1 命令行交互

8.2 Python Demo

九、常见问题与最佳实践

9.1 超参数调节

9.2 效果不佳排查

9.3 数据量建议

9.4 灾难性遗忘

9.5 多能力学习

十、总结

更多推荐文章

相关免费在线工具

LLama-Factory 实战：基于自建数据集微调 Qwen7B 模型

LLama-Factory 实战：基于自建数据集微调 Qwen7B 模型

一、项目简介

项目特色

二、硬件依赖

LLama-Factory 实战：基于自建数据集微调 Qwen7B 模型

LLama-Factory 实战：基于自建数据集微调 Qwen7B 模型

一、项目简介

项目特色

二、硬件依赖

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、环境安装

3.1 克隆项目

3.2 安装依赖

四、构建自己的数据集

注册数据集

五、修改配置文件 (YAML)

六、开始训练

6.1 使用 CLI 命令

6.2 使用 Python 脚本

七、合并模型

八、模型推理

8.1 命令行交互

8.2 Python Demo

九、常见问题与最佳实践

9.1 超参数调节

9.2 效果不佳排查

9.3 数据量建议

9.4 灾难性遗忘

9.5 多能力学习

十、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具