大模型微调实战：基于 LLaMA-Factory 的 LoRA 微调指南

大模型微调实战：基于 LLaMA-Factory 的 LoRA 微调指南 | 极客日志

nvidia-smi

import torch
torch.cuda.current_device()
torch.cuda.get_device_name(0)
torch.__version__

git lfs install

git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-8B-Instruct.git

git clone https://www.modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GPTQ-Int8.git

#模型下载
from modelscope import snapshot_download 
model_dir = snapshot_download('Qwen/Qwen2.5-3B-Instruct-GPTQ-Int8')

llamafactory-cli chat \
    --model_name_or_path /path/to/Meta-Llama-3-8B-Instruct \
    --template llama3

参数名称	功能描述
model_name_or_path	指定使用的模型名称或模型文件的路径。
chat	启用命令行模式，允许用户通过命令行接口与模型交互。
webui	启用 Web 界面模式，提供图形用户界面以方便用户操作。
finetuning_type	选择微调方式，可选值为 freeze（冻结参数）、lora（LoRA 方法）和 full（全参数微调）。
lora_target	设置采用 LoRA 方法的目标模块，如果未指定，则默认作用于所有模块（`all`）。
dataset	指定使用的数据集，多个数据集可以用逗号','分隔。
template	指定数据集模板，确保所选模板与模型兼容。
output_dir	指定输出目录，用于保存训练结果和其他输出文件。

{
  "instruction": "用户指令（必填）",
  "input": "用户输入（选填）",
  "output": "模型回答（必填）"
}

sed -i 's/{{name}}/刚刚微调出来的模型/g' data/identity.json
sed -i 's/{{author}}/开发者/g' data/identity.json

{
 "instruction": "Who are you?",
 "input": "",
 "output": "Hello! I am {{name}}, an AI assistant developed by {{author}}. How can you assist you today?"
}

{
 "instruction": "Who are you?",
 "input": "",
 "output": "Hello! I am 刚刚微调出来的模型，an AI assistant developed by 开发者。How can you assist you today?"
}

llamafactory-cli train \
    --stage sft \
    --do_train \
    --model_name_or_path /path/to/Meta-Llama-3-8B-Instruct \
    --dataset identity \
    --dataset_dir ./data \
    --template llama3 \
    --finetuning_type lora \
    --output_dir ./saves/LLaMA3-8B/lora/sft \
    --overwrite_cache \
    --overwrite_output_dir \
    --cutoff_len 1024 \
    --preprocessing_num_workers 16 \
    --per_device_train_batch_size 2 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 8 \
    --lr_scheduler_type cosine \
    --logging_steps 50 \
    --warmup_steps 20 \
    --save_steps 100 \
    --eval_steps 50 \
    --evaluation_strategy steps \
    --load_best_model_at_end \
    --learning_rate 5e-5 \
    --num_train_epochs 5.0 \
    --max_samples 1000 \
    --val_size 0.1 \
    --plot_loss \
    --fp16

参数名称	功能描述
stage	表示当前训练阶段的枚举值，包括 sft（有监督指令微调）、pt、rm、ppo 等。在我们的案例中，我们关注的是有监督指令微调阶段，即 sft。
do_train	指示是否处于训练模式。
dataset	指定使用的数据集列表，所有数据集必须在 data_info.json 中注册，多个数据集以逗号','分隔。本次微调仅使用了 identity.json 文件。
dataset_dir	指定数据集所在的目录路径，本例中为 data，即项目内嵌的 data 目录。
finetuning_type	微调训练的类型，可选枚举值包括 lora（低秩适应）、full（全参数微调）和 freeze（冻结参数）。本例中使用的是 lora。
output_dir	指定训练结果的保存路径。
cutoff_len	定义训练数据集的长度截断阈值。
per_device_train_batch_size	设置每个设备上的训练批次大小（batch size），最小值为 1。如果 GPU 显存充足，可以适当增加以提高训练效率。
fp16	启用半精度混合精度训练，以加速训练过程并减少显存占用。
max_samples	定义每个数据集中采样的数据量。
val_size	指定从数据集中随机抽取的比例，用作验证集。

CUDA_VISIBLE_DEVICES=0 llamafactory-cli chat \
    --model_name_or_path /path/to/Meta-Llama-3-8B-Instruct \
    --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft  \
    --template llama3 \
    --finetuning_type lora

大模型微调实战：基于 LLaMA-Factory 的 LoRA 微调指南

引言

1. 大模型类型介绍

1.1 Base 模型

1.2 Chat 模型

1.3 Instruct 模型

2. 常见微调框架

3. 微调工具选择

4. 环境配置

4.1 硬件与驱动

4.2 相关依赖

5. 模型下载

6. 使用原始模型进行推理

7. 构建自定义数据集

8. 开始微调

9. 合并 LoRA 进行模型推理

10. 常见问题排查

更多推荐文章

相关免费在线工具

大模型微调实战：基于 LLaMA-Factory 的 LoRA 微调指南

引言

1. 大模型类型介绍

1.1 Base 模型

1.2 Chat 模型

1.3 Instruct 模型

2. 常见微调框架

3. 微调工具选择

4. 环境配置

4.1 硬件与驱动

4.2 相关依赖

5. 模型下载

6. 使用原始模型进行推理

7. 构建自定义数据集

8. 开始微调

9. 合并 LoRA 进行模型推理

10. 常见问题排查

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具