使用 LLaMA-Factory 开启你的第一个大模型微调任务 | 极客日志

PythonAI算法

使用 LLaMA-Factory 开启你的第一个大模型微调任务

综述由AI生成使用 LLaMA-Factory 进行大语言模型微调的完整流程。内容涵盖基于 Conda 的环境隔离安装、数据集注册与配置、WebUI 可视化与命令行脚本两种训练模式的操作步骤。此外，还详细解析了如何通过 Loss 曲线评估训练效果，以及针对显存溢出错误（OOM）的优化策略，包括量化、截断长度和梯度检查点等设置。

猫巷少女发布于 2026/4/5更新于 2026/5/2021 浏览

环境搭建：构建训练环境

为了保证训练不因版本冲突而崩溃，建议使用 Conda 进行物理隔离。

1. 克隆项目

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

2. 安装核心依赖 (针对 CUDA 12.1 环境)

pip install -e .[metrics,bitsandbytes,qwen]

3. 验证是否安装成功

llamafactory-cli version

准备数据集

LLaMA-Factory 有一套自己的数据集管理逻辑。你需要将准备好的 security_expert_data.jsonl 放入 data/ 目录，并在 data/dataset_info.json 中注册它。

注册示例：

{
  "my_security_data": {
    "file_name": "security_expert_data.jsonl",
    "columns": {
      "prompt": "instruction",
      "query": "input",
      "response": "output"
    }
  }
}

执行训练

1. WebUI 模式

在终端执行 llamafactory-cli webui。你会看到一个直观的界面。你需要设置：

模型名称：选择 DeepSeek-V3 或 Qwen2.5-7B。
微调方法：选择 LoRA。
数据集：勾选你刚刚注册的 my_security_data。
学习率：建议 5e-5。
计算精度：显存够选 bf16，不够选 fp16 或 int4。

2. 命令行模式 (CLI)

一旦参数调优确定，建议使用脚本运行，更稳定且方便记录。

llamafactory-cli train \
--stage sft \
--do_train \
--model_name_or_path /path/to/your/model \
--dataset my_security_data \
--template qwen \
--finetuning_type lora \
--output_dir ./saves/security_agent_v1 \
--per_device_train_batch_size 4 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 100 \
--learning_rate 5e-5 \
--num_train_epochs 3.0 \
--plot_loss \
--fp16

使用 LLaMA-Factory 开启你的第一个大模型微调任务

环境搭建：构建训练环境

1. 克隆项目

2. 安装核心依赖 (针对 CUDA 12.1 环境)

3. 验证是否安装成功

准备数据集

执行训练

1. WebUI 模式

2. 命令行模式 (CLI)

更多推荐文章

相关免费在线工具

关键指标：如何看懂 Loss 曲线

常见问题处理：显存溢出的解决方案

更多推荐文章

相关免费在线工具

使用 LLaMA-Factory 开启你的第一个大模型微调任务

环境搭建：构建训练环境

1. 克隆项目

2. 安装核心依赖 (针对 CUDA 12.1 环境)

3. 验证是否安装成功

准备数据集

执行训练

1. WebUI 模式

2. 命令行模式 (CLI)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

关键指标：如何看懂 Loss 曲线

常见问题处理：显存溢出的解决方案

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具