Llama-Factory使用指南：从入门到实战

优质文章学习记录

06 Apr 2026 — 9 min read

Llama-Factory使用指南：从入门到实战

在大模型落地越来越快的今天，越来越多开发者和企业开始尝试让通用模型“学会”自己的业务逻辑——比如客服对话、法律文书生成、医疗问答等。但一提到微调，很多人立刻想到复杂的训练脚本、满屏报错的日志、动辄几十GB的显存占用……最终只能望而却步。

有没有一种方式，能让我们不用写一行代码，点点鼠标就能完成专业级的大模型定制？答案是：有。而且它已经开源了，名字叫 Llama-Factory。

这个项目最近在 GitHub 上持续走热，不是因为它又搞了个新算法，而是它真的把“大模型微调”这件事做成了普通人也能上手的工具。你可以把它理解为一个“AI工厂流水线”：你只需要准备好原料（数据）、选好机器（模型），剩下的清洗、加工、质检、打包，全由系统自动完成。

更关键的是，它支持 WebUI 图形界面操作，全程可视化配置，连参数含义都有提示。哪怕你是第一次接触 LoRA 或 QLoRA，也能在半小时内跑通整个流程。

我们不妨直接进入实战场景：假设你现在是一家教育科技公司的工程师，老板让你做一个能自动批改作文并给出评语的 AI 助教。你手上有一批标注好的学生作文和教师点评数据，目标是把这份领域知识注入到 llama3-8b 模型中。

怎么做？

第一步，当然是搭环境。Llama-Factory 的安装非常轻量，核心依赖只有 Python 3.9+ 和 PyTorch 2.0+。如果你用的是云服务器或本地 GPU 工作站，执行下面三行命令基本就能跑起来：

git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -r requirements.txt

如果网络较慢，建议加上国内镜像源加速：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

装完之后，启动 WebUI：

python src/webui.py --server-name 0.0.0.0

看到终端输出 http://127.0.0.1:7860 就说明服务已就绪。打开浏览器访问这个地址，你会看到一个简洁的中文界面——没错，它原生支持多语言切换，左上角一键切中文，彻底告别“英文盲区”。

现在，真正的微调之旅才刚刚开始。

首先得告诉系统你要微调哪个模型。点击“模型名称”下拉框，你会发现支持列表长得惊人：从 LLaMA、Qwen、Baichuan 到 ChatGLM、Mistral、Gemma……主流架构几乎全覆盖。这里选择 llama3-8b，然后在“模型路径”里填入本地路径或 HuggingFace 的 repo ID。

这里有个坑要特别注意：路径必须包含完整的模型文件结构，尤其是 config.json 和 tokenizer.model。我见过太多人因为用了相对路径或者漏了 tokenizer 文件导致反复下载模型，白白浪费时间和带宽。

接下来是决定“怎么微调”。界面上提供了三种主流方法：全参数微调（full）、冻结微调（freeze）和 LoRA/QLoRA。对于大多数个人开发者来说，LoRA 是最优解；而对于显存不足的用户，QLoRA 更是救命稻草——它能在一张 RTX 3090 上微调 70B 级别的模型。

我们选 qlora，然后顺手把“量化等级”设为 4bit，这是 QLoRA 的必要条件。再勾上 flashattn2 和 unsloth 加速选项，推理速度能提升近一倍。

到这里，基础配置其实已经够用了。但如果你想进一步优化效果，可以展开“高级设置”看看更多隐藏功能。

比如“提示词模板”这一项，直接影响你的数据如何被喂给模型。如果你的数据格式是 instruction-input-output 结构，那就选 alpaca；如果是多轮对话，则用 chatml 或 zephyr。务必确保数据格式与模板匹配，否则模型根本学不会你在教什么。

另一个值得玩的参数是 RoPE 插值。默认情况下，llama3 支持 8K 上下文，但通过 linear 或 dynamic 缩放，你可以强行扩展到 32K 甚至更高。这对处理长文档任务（如论文摘要、合同分析）非常有用。

真正进入训练环节前，还需要搞定数据部分。Llama-Factory 要求所有数据集都注册在一个叫 dataset_info.json 的配置文件里。例如：

{ "essay_grading": { "file_name": "grading_data.jsonl", "columns": { "instruction": "prompt", "input": "student_essay", "output": "teacher_feedback" } } }

这样你在 WebUI 的“数据路径”下拉框里就能直接选中 essay_grading 数据集。别小看这一步，很多初学者卡住就是因为忘了注册数据，结果界面上死活找不到自己传进去的文件。

训练阶段我们选择最常用的 SFT（监督微调）。其他像 DPO、PPO 属于进阶对齐技术，适合做完 SFT 后再进行偏好优化。现阶段先专注把基础能力训出来。

学习率方面，LoRA 建议设在 1e-4 ~ 1e-3 之间。因为只训练少量新增参数，所以可以比全参数微调设得更高。配合 constant_with_warmup 学习率调度器，前几百步缓慢升温，避免初期震荡。

Batch size 受显存限制较大。单卡 3090 推荐设为 4~8，再通过梯度累积步数模拟更大的 batch。比如设 batch_size=4, gradient_accumulation_steps=4，相当于全局 batch=16。

截断长度建议设为 2048 或 4096。太短会丢失信息，太长则增加计算负担。如果要做超长文本建模，记得开启 RoPE 插值。

计算精度推荐 bf16，前提是你的显卡支持（Ampere 架构及以上）。相比 fp16，bf16 数值更稳定，不容易出现 loss NaN 的问题。

至于 LoRA 本身的参数，这里给一套经过验证的组合：
- rank = 64
- alpha = 128
- dropout = 0.05
- target modules = q_proj,v_proj,k_proj,o_proj
- 开启 DoRA（分离幅度与方向）

这套配置在多个实际项目中表现稳健，既能捕捉足够多的知识，又不会轻易过拟合。

当你按下“开始训练”按钮后，系统会自动生成对应的训练命令，并实时输出日志。重点关注 loss 是否平稳下降，以及是否有 CUDA OOM 报错。如果发现显存溢出，第一时间降 batch size 或开启梯度检查点（gradient checkpointing）。

训练完成后，别急着导出模型，先去“Evaluate”模块做个评估。可以选择 BLEU、ROUGE 或 Exact Match 等指标，看看模型在测试集上的表现。更重要的是手动去“Predict”页面输入几条典型样本，观察输出是否符合预期。

比如你可以输入：“请批改这篇作文：……”，看看模型能不能像老师一样指出语法错误、结构问题，并给出建设性意见。如果输出混乱，大概率是 tokenizer 不匹配或 prompt 模板选错了。

确认效果满意后，就可以进入“Chat”模块做在线对话测试。这里支持两种推理引擎：HuggingFace（易用）和 vLLM（极速）。后者支持连续批处理和 PagedAttention，在高并发场景下性能优势明显，生产部署强烈推荐。

最后一步，“Export”导出模型。你可以选择是否量化、分块大小、是否使用 safetensors 格式。建议勾选 safetensors + 4bit，既安全又能大幅压缩体积，方便后续部署到边缘设备或上传 HuggingFace。

顺便提一句，如果你打算公开模型，可以直接填写 HF Hub ID，系统会帮你一键推送上去。

回头来看，整个过程其实并不复杂。你不需要懂反向传播的具体实现，也不需要手动写 Trainer 类，甚至连命令行都不用碰。Llama-Factory 把所有复杂性封装在后台，留给用户的只是一个清晰直观的操作流。

但这不意味着你可以完全“无脑”操作。工程实践中仍有不少细节需要注意：

数据质量永远第一位。垃圾进，垃圾出。哪怕用最先进的 QLoRA，如果数据标注混乱、格式不统一，模型照样学不会。
参数调整要有节奏感。不要一开始就堆满高级选项。先跑通 SFT 流程，看到 loss 下降再说优化。
监控日志要勤快。loss 长时间不降？可能是学习率太高；输出全是乱码？检查 tokenizer 是否一致。
善用社区资源。项目 GitHub Issues 里藏着大量真实问题解决方案，比任何教程都实用。

事实上，Llama-Factory 的价值远不止“图形化操作”这么简单。它背后整合了当前最前沿的技术栈：bitsandbytes 量化、FlashAttention-2 加速、Unsloth 极速微调、DPO 对齐算法……这些原本分散在各处的技术，现在被统一在一个框架下，形成了强大的协同效应。

更重要的是，它的设计理念是“渐进式开放”——新手可以用 WebUI 快速上手，资深用户也可以通过命令行深度定制。这种灵活性让它既能服务于教学演示，也能支撑企业级应用开发。

所以，无论你是想做个智能客服、构建行业知识库，还是单纯想体验一把“造AI”的乐趣，Llama-Factory 都是一个极佳的起点。

记住：真正的门槛从来不在工具本身，而在你是否愿意动手试一次。那些看似复杂的参数，其实都在等着你一点点去探索、去调试、去理解。而每一次成功的训练，都会让你离“掌控大模型”更近一步。

最后送大家一句我常说的话：不要等到准备好了才开始，因为永远不会有“完全准备好”的那一刻。最好的学习方式，就是现在就开始。

Llama-Factory使用指南：从入门到实战

优质文章学习记录

Llama-Factory使用指南：从入门到实战

Read more

Unitree Go2机器人ROS2仿真终极指南：从零构建完整四足机器人仿真方案

在 Rokid AR 眼镜里玩消消乐：基于 Unity 2022 LTS + UXR 3.0 SDK 的轻量级 AR 游戏尝试

【ComfyUI】蓝耘元生代 | ComfyUI深度解析：高性能AI绘画工作流实践

云端微光，AI启航：低代码开发的智造未来