LLaMA-Factory 快速开发自定义大模型实战指南 | 极客日志

PythonAI算法

LLaMA-Factory 快速开发自定义大模型实战指南

综述由AI生成基于 LLaMA-Factory 框架进行大模型微调的全流程，涵盖环境搭建、数据集构建、LoRA 指令微调、推理测试、效果评估及模型导出部署。通过命令行与 WebUI 两种方式，演示了从原始模型验证到 GGUF 格式转换至 Ollama 部署的完整链路，帮助开发者快速掌握垂直领域大模型的训练与应用。

编程诗人发布于 2025/2/7更新于 2026/6/432 浏览

1. 项目背景

开源大模型如 LLaMA、Qwen、Baichuan 等主要都是使用通用数据进行训练而来，其对于不同下游的使用场景和垂直领域的效果有待进一步提升，衍生出了微调训练相关的需求，包含预训练（pt）、指令微调（sft）、基于人工反馈的对齐（rlhf）等全链路。但大模型训练对于显存和算力的要求较高，同时也需要下游开发者对大模型本身的技术有一定了解，具有一定的门槛。

LLaMA-Factory 项目的目标是整合主流的各种高效训练微调技术，适配市场主流开源模型，形成一个功能丰富、适配性好的训练框架。项目提供了多个高层次抽象的调用接口，包含多阶段训练、推理测试、benchmark 评测、API Server 等，使开发者开箱即用。同时借鉴 Stable Diffusion WebUI 相关，本项目提供了基于 Gradio 的网页版工作台，方便初学者可以迅速上手操作，开发出自己的第一个模型。

2. 本教程目标

以 Meta-Llama-3-8B-Instruct 模型和 Linux + RTX 4090 24GB 环境，LoRA+sft 训练阶段为例子，帮助开发者迅速浏览和实践本项目会涉及到的常见若干个功能，包括：

• 原始模型直接推理 • 自定义数据集构建 • 基于 LoRA 的 sft 指令微调 • 动态合并 LoRA 的推理 • 批量预测和训练效果评估 • LoRA 模型合并导出 • 一站式 webui board 的使用 • API Server 的启动与调用 • 大模型主流评测 benchmark • 导出 GGUF 格式，使用 Ollama 推理

本教程大部分内容都可以通过 LLaMA-Factory 下的 README.md、data/README.md、examples 文件夹下的示例脚本得到，遇到问题请先阅读项目原始相关资料。

关于全参训练、flash-attention 加速、deepspeed、rlhf、多模态模型训练等更高阶 feature 的使用，后续会有额外的教程来介绍。

3. 前置准备

训练顺利运行需要包含 4 个必备条件：

• 1. 机器本身的硬件和驱动支持（包含显卡驱动，网络环境等） • 2. 本项目及相关依赖的 python 库的正确安装（包含 CUDA，Pytorch 等） • 3. 目标训练模型文件的正确下载 • 4. 训练数据集的正确构造和配置

3.1 硬件环境校验

显卡驱动和 CUDA 的安装，网络教程很多，不在本教程范围以内。

使用以下命令做最简单的校验：

nvidia-smi

预期输出如图，显示 GPU 当前状态和配置信息。

那多大的模型用什么训练方式需要多大的 GPU 呢，可参考官方文档。新手建议是 3090 和 4090 起步，可以比较容易地训练比较主流的入门级别大模型 7B 和 8B 版本。

3.2 CUDA 和 Pytorch 环境校验

请参考项目的 readme 进行安装。

2024 年 51 期间系统版本有较大升级，2024-06-07 号的安装版本命令如下，请注意 conda 环境的激活。

git clone https://github.com/hiyouga/LLaMA-Factory.git
conda create -n llama_factory python=3.10
conda activate llama_factory
cd LLaMA-Factory
pip install -e '.[torch,metrics]'

上述的安装命令完成了如下几件事：

• 1. 新建一个 LLaMA-Factory 使用的 python 环境（可选） • 2. 安装 LLaMA-Factory 所需要的第三方基础库（requirements.txt 包含的库） • 3. 安装评估指标所需要的库，包含 nltk, jieba, rouge-chinese • 4. 安装 LLaMA-Factory 本身，然后在系统中生成一个命令 llamafactory-cli（具体用法见下方教程）

安装后使用以下命令做简单的正确性校验。

校验 1

import torch
torch.cuda.current_device()
torch.cuda.get_device_name(0)
torch.__version__

预期输出如图。如果识别不到可用的 GPU，则说明环境准备还有问题，需要先进行处理，才能往后进行。

校验 2

同时对本库的基础安装做一下校验，输入以下命令获取训练相关的参数指导，否则说明库还没有安装成功：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

llamafactory-cli train -h

git clone https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct

git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-8B-Instruct.git

# 模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('LLM-Research/Meta-Llama-3-8B-Instruct')

import transformers
import torch

# 切换为你下载的模型文件目录，这里的 demo 是 Llama-3-8B-Instruct
# 如果是其他模型，比如 qwen，chatglm，请使用其对应的官方 demo
model_id = "/media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

CUDA_VISIBLE_DEVICES=0 llamafactory-cli webchat \
    --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \
    --template llama3

llamafactory-cli webchat \
    --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \
    --template llama3

参数名称	参数说明
model_name_or_path	参数的名称（huggingface 或者 modelscope 上的标准定义，如'meta-llama/Meta-Llama-3-8B-Instruct'），或者是本地下载的绝对路径，如/media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct
template	模型问答时所使用的 prompt 模板，不同模型不同，请参考 LLaMA-Factory 仓库获取不同模型的模板定义，否则会回答结果会很奇怪或导致重复生成等现象的出现。chat 版本的模型基本都需要指定，比如 Meta-Llama-3-8B-Instruct 的 template 就是 llama3

model_name_or_path: /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct
template: llama3

llamafactory-cli webchat examples/inference/llama3.yaml

export GRADIO_ROOT_PATH=/${JUPYTER_NAME}/proxy/7860/

[
  {
    "instruction": "用户指令（必填）",
    "input": "用户输入（选填）",
    "output": "模型回答（必填）",
    "system": "系统提示词（选填）",
    "history": [
      ["第一轮指令（选填）", "第一轮回答（选填）"],
      ["第二轮指令（选填）", "第二轮回答（选填）"]
    ]
  }
]

{
  "instruction": "写一个有效的比较语句",
  "input": "篮球和足球",
  "output": "篮球和足球都是受欢迎的运动。"
}

{
  "instruction": "谢谢",
  "input": "",
  "output": "不用谢！很高兴我提供的信息能够帮助到你！如果还有什么其他问题也可以向我提问。",
  "history": [
    [
      "请你给我写一个面试准备计划，我想要去面试微软的程序员岗位",
      "首先，你可以去微软官网寻找招聘信息并申请面试。\n其次，您可以在社交媒体平台寻找微软公司对程序员的面试问题，并做好准备。\n最后，您可以自己对面试过程进行模拟，熟悉话题并减少紧张感。\n我希望你能面试成功。"
    ]
  ]
}

sed -i 's/{{name}}/PonyBot/g' data/identity.json
sed -i 's/{{author}}/LLaMA Factory/g' data/identity.json

{
  "instruction": "Who are you?",
  "input": "",
  "output": "Hello! I am {{name}}, an AI assistant developed by {{author}}. How can I assist you today?"
}

{
  "instruction": "Who are you?",
  "input": "",
  "output": "I am PonyBot, an AI assistant developed by LLaMA Factory. How can I assist you today?"
}

{
  "content": "类型#裤*版型#宽松*风格#性感*图案#线条*裤型#阔腿裤",
  "summary": "宽松的阔腿裤这两年真的吸粉不少，明星时尚达人的心头爱。毕竟好穿时尚，谁都能穿出腿长 2 米的效果宽松的裤腿，当然是遮肉小能手啊。上身随性自然不拘束，面料亲肤舒适贴身体验感棒棒哒。系带部分增加设计看点，还让单品的设计感更强。腿部线条若隐若现的，性感撩人。颜色敲温柔的，与裤子本身所呈现的风格有点反差萌。"
}

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train \
    --stage sft \
    --do_train \
    --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \
    --dataset alpaca_gpt4_zh,identity,adgen_local \
    --dataset_dir ./data \
    --template llama3 \
    --finetuning_type lora \
    --output_dir ./saves/LLaMA3-8B/lora/sft \
    --overwrite_cache \
    --overwrite_output_dir \
    --cutoff_len 1024 \
    --preprocessing_num_workers 16 \
    --per_device_train_batch_size 2 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 8 \
    --lr_scheduler_type cosine \
    --logging_steps 50 \
    --warmup_steps 20 \
    --save_steps 100 \
    --eval_steps 50 \
    --evaluation_strategy steps \
    --load_best_model_at_end \
    --learning_rate 5e-5 \
    --num_train_epochs 5.0 \
    --max_samples 1000 \
    --val_size 0.1 \
    --plot_loss \
    --fp16

llamafactory-cli train -h

CUDA_VISIBLE_DEVICES=0 llamafactory-cli webchat \
    --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \
    --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft \
    --template llama3 \
    --finetuning_type lora

CUDA_VISIBLE_DEVICES=0 llamafactory-cli chat \
    --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \
    --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft \
    --template llama3 \
    --finetuning_type lora

pip install jieba
pip install rouge-chinese
pip install nltk

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train \
    --stage sft \
    --do_predict \
    --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \
    --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft \
    --eval_dataset alpaca_gpt4_zh,identity,adgen_local \
    --dataset_dir ./data \
    --template llama3 \
    --finetuning_type lora \
    --output_dir ./saves/LLaMA3-8B/lora/predict \
    --overwrite_cache \
    --overwrite_output_dir \
    --cutoff_len 1024 \
    --preprocessing_num_workers 16 \
    --per_device_eval_batch_size 1 \
    --max_samples 20 \
    --predict_with_generate

CUDA_VISIBLE_DEVICES=0 llamafactory-cli export \
    --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \
    --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft \
    --template llama3 \
    --finetuning_type lora \
    --export_dir merged-model-path \
    --export_size 2 \
    --export_device cpu \
    --export_legacy_format False

CUDA_VISIBLE_DEVICES=0 llamafactory-cli webui

CUDA_VISIBLE_DEVICES=0 GRADIO_SHARE=1 GRADIO_SERVER_PORT=7860 llamafactory-cli webui

CUDA_VISIBLE_DEVICES=0 API_PORT=8000 llamafactory-cli api \
    --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \
    --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft \
    --template llama3 \
    --finetuning_type lora

CUDA_VISIBLE_DEVICES=0 API_PORT=8000 llamafactory-cli api \
    --model_name_or_path merged-model-path \
    --template llama3 \
    --infer_backend vllm \
    --vllm_enforce_eager

import os
from openai import OpenAI
from transformers.utils.versions import require_version

require_version("openai>=1.5.0", "To fix: pip install openai>=1.5.0")

if __name__ == '__main__':
    # change to your custom port
    port = 8000
    client = OpenAI(
        api_key="0",
        base_url="http://localhost:{}/v1".format(os.environ.get("API_PORT", 8000)),
    )
    messages = []
    messages.append({"role": "user", "content": "hello, where is USA"})
    result = client.chat.completions.create(messages=messages, model="test")
    print(result.choices[0].message)

CUDA_VISIBLE_DEVICES=0 llamafactory-cli eval \
    --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \
    --template llama3 \
    --task mmlu_test \
    --lang en \
    --n_shot 5 \
    --batch_size 1

Average: 63.64                                                                                                                                                   STEM: 50.83   Social Sciences: 76.31        Humanities: 56.63             Other: 73.31

CUDA_VISIBLE_DEVICES=0 llamafactory-cli eval \
    --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B \
    --template fewshot \
    --task mmlu \
    --split validation \
    --lang en \
    --n_shot 5 \
    --batch_size 1

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp/gguf-py
pip install --editable .

cd ..
python convert-hf-to-gguf.py /home/codingma/code/LLaMA-Factory/merged-model-path

curl -fsSL https://ollama.com/install.sh | sh

FROM /home/codingma/code/LLaMA-Factory/merged-model-path

ollama create llama3-chat-merged -f Modelfile

ollama run llama3-chat-merged

LLaMA-Factory 快速开发自定义大模型实战指南

1. 项目背景

2. 本教程目标

3. 前置准备

3.1 硬件环境校验

3.2 CUDA 和 Pytorch 环境校验

校验 1

校验 2

更多推荐文章

相关免费在线工具

3.3 模型下载与可用性校验

3.4 数据集部分放到后面一起说明

4. 原始模型直接推理

5. 自定义数据集构建

6. 基于 LoRA 的 sft 指令微调

7. 动态合并 LoRA 的推理

8. 批量预测和训练效果评估

9. LoRA 模型合并导出

10. 一站式 webui board 的使用

11. API Server 的启动与调用

12. 进阶 - 大模型主流评测 benchmark

13. 进阶 - 导出 GGUF，部署 Ollama

1. lora 模型合并

2. 安装 gguf 库

3. 格式转换

4. Ollama 安装

5. 注册要部署的模型文件

6. 启动 Ollama

14. 总结与最佳实践

更多推荐文章

相关免费在线工具

LLaMA-Factory 快速开发自定义大模型实战指南

1. 项目背景

2. 本教程目标

3. 前置准备

3.1 硬件环境校验

3.2 CUDA 和 Pytorch 环境校验

校验 1

校验 2

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 模型下载与可用性校验

3.4 数据集部分放到后面一起说明

4. 原始模型直接推理

5. 自定义数据集构建

6. 基于 LoRA 的 sft 指令微调

7. 动态合并 LoRA 的推理

8. 批量预测和训练效果评估

9. LoRA 模型合并导出

10. 一站式 webui board 的使用

11. API Server 的启动与调用

12. 进阶 - 大模型主流评测 benchmark

13. 进阶 - 导出 GGUF，部署 Ollama

1. lora 模型合并

2. 安装 gguf 库

3. 格式转换

4. Ollama 安装

5. 注册要部署的模型文件

6. 启动 Ollama

14. 总结与最佳实践

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具