LLaMA-Factory 大语言模型微调框架实战指南 | 极客日志

PythonAI算法

LLaMA-Factory 大语言模型微调框架实战指南

LLaMA-Factory 是一款基于 Python 的低代码大模型微调框架，支持多种主流模型与高效微调算法。它提供 Web UI 和命令行接口，涵盖预训练、指令微调及强化学习等任务。通过集成 LoRA、QLoRA 等技术，显著降低显存消耗并提升训练效率。详细介绍其安装配置、参数设置、训练流程及推理部署方法，帮助用户快速上手大模型定制开发。

利刃发布于 2025/2/7更新于 2026/6/219 浏览

LLaMA-Factory 大语言模型微调框架

LLaMA-Factory 是一个国内开源的低代码大模型训练框架，专为大型语言模型（LLMs）的微调而设计。它旨在简化大模型的训练流程，降低技术门槛，使开发者能够高效地定制和部署自己的大语言模型。

一、功能特点

LLaMA-Factory 的核心优势在于其易用性和强大的功能集成：

高效且低成本：支持对 100 多个主流模型进行微调，通过量化技术和参数高效微调方法（PEFT），显著降低显存需求和计算成本。
易于访问和使用：提供友好的 Web UI 界面，用户无需编写复杂代码即可配置训练任务；同时也支持命令行操作，便于自动化脚本集成。
丰富的数据集选项：内置多种标准数据集格式，支持用户上传自定义 JSON/JSONL 格式数据，灵活适配不同业务场景。
多样化的算法支持：集成了业界广泛使用的微调方法，包括全量微调、LoRA、QLoRA、DPO、PPO 等，满足不同精度和性能需求。
实时监控和评估：支持集成 TensorBoard、WandB 和 MLflow 等监控工具，实时追踪训练指标，方便分析模型收敛情况。
极速推理：基于 vLLM 提供 OpenAI 风格的 API 接口，支持高并发推理服务，同时提供浏览器界面和命令行工具。

二、环境准备与安装

1. 系统要求

操作系统：Linux (Ubuntu 18.04+), macOS, Windows (WSL2)
Python 版本：建议 Python 3.8 及以上
GPU 驱动：NVIDIA CUDA Toolkit 11.7 或更高版本
依赖库：PyTorch, Transformers, PEFT, Accelerate 等

2. 创建 Conda 环境

推荐使用 Conda 管理虚拟环境，避免依赖冲突：

conda create -n llamafactory python=3.9 -y
conda activate llamafactory

3. 克隆项目源码

从 GitHub 获取最新源代码：

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

4. 安装依赖

根据需求选择安装基础包或包含特定加速库的版本：

# 基础安装
pip install -e ".[torch]"

# 如需使用 FlashAttention-2 加速（需 NVIDIA Ampere 架构 GPU）
pip install -e ".[flash-attn]"

# 如需使用 Unsloth 优化
pip install -e ".[unsloth]"

三、支持的模型与算法

1. 支持的主流模型

LLaMA-Factory 兼容众多开源大模型，包括但不限于：

LLaMA 系列：LLaMA, LLaMA2, LLaMA3
Qwen 系列：Qwen, Qwen1.5, Qwen2

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

task_type: sft
model_name_or_path: Qwen/Qwen1.5-7B-Chat
dataset_dir: data/
dataset: custom_sft_dataset
eval_strategy: steps
eval_steps: 500
per_device_train_batch_size: 1
gradient_accumulation_steps: 4
learning_rate: 1.0e-4
num_train_epochs: 3.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
fp16: true
output_dir: outputs/qwen-sft
logging_steps: 10
save_steps: 500
load_best_model_at_end: true
metric_for_best_model: loss

启动服务：在项目根目录下运行命令。
```
python src/train_web.py
```
默认监听端口为 7860，打开浏览器访问 http://localhost:7860。
配置模型：在左侧菜单选择模型名称，确认本地已下载权重文件。
加载数据集：上传自定义数据集文件或选择内置数据集，确保格式符合规范（instruction, input, output）。
设置训练参数：调整学习率、Epoch、Batch Size 等超参数。
开始训练：点击'开始'按钮，右侧面板将实时显示 Loss 曲线和日志信息。
导出模型：训练完成后，可在'导出'页面将模型转换为 HuggingFace 格式或 GGUF 格式以便部署。

python src/train.py \
    --stage sft \
    --do_train \
    --model_name_or_path Qwen/Qwen1.5-7B-Chat \
    --dataset custom_sft \
    --template qwen \
    --finetuning_type lora \
    --lora_target all \
    --output_dir ./checkpoints \
    --overwrite_cache \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 5e-5 \
    --num_train_epochs 3.0 \
    --plot_loss \
    --fp16

python src/api_server.py \
    --model_name_or_path ./outputs/checkpoint \
    --port 8000 \
    --backend vllm

import requests

response = requests.post(
    "http://localhost:8000/v1/chat/completions",
    json={
        "model": "local-model",
        "messages": [{"role": "user", "content": "你好，请介绍一下你自己。"}],
        "temperature": 0.7
    }
)
print(response.json())

LLaMA-Factory 大语言模型微调框架实战指南

LLaMA-Factory 大语言模型微调框架

一、功能特点

二、环境准备与安装

1. 系统要求

2. 创建 Conda 环境

3. 克隆项目源码

4. 安装依赖

三、支持的模型与算法

1. 支持的主流模型

更多推荐文章

相关免费在线工具

2. 微调任务类型

3. 精度与优化技术

四、配置文件详解

五、Web UI 操作流程

六、命令行微调示例

七、推理部署

1. 启动 API 服务

2. 调用示例

3. 浏览器测试

八、常见问题与排查

1. 显存溢出 (OOM)

2. 数据集格式错误

3. 模型加载失败

九、总结

更多推荐文章

相关免费在线工具

LLaMA-Factory 大语言模型微调框架实战指南

LLaMA-Factory 大语言模型微调框架

一、功能特点

二、环境准备与安装

1. 系统要求

2. 创建 Conda 环境

3. 克隆项目源码

4. 安装依赖

三、支持的模型与算法

1. 支持的主流模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 微调任务类型

3. 精度与优化技术

四、配置文件详解

五、Web UI 操作流程

六、命令行微调示例

七、推理部署

1. 启动 API 服务

2. 调用示例

3. 浏览器测试

八、常见问题与排查

1. 显存溢出 (OOM)

2. 数据集格式错误

3. 模型加载失败

九、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具