Llama-Factory 使用指南：从入门到实战

综述由AI生成介绍如何使用 Llama-Factory 进行大模型微调。通过图形化界面，用户无需编写代码即可完成环境搭建、模型选择、数据配置及训练过程。支持 LoRA、QLoRA 等多种微调方法，兼容主流大模型架构。文章详细讲解了安装步骤、WebUI 操作细节、关键参数设置（如学习率、Batch size）、数据格式要求以及模型评估与导出流程。强调数据质量的重要性，并提供了一套经过验证的 LoRA 参数组合建议，帮助开发者快速上手企业级大模型定制任务。

人间过客发布于 2026/4/6更新于 2026/5/2640 浏览

Llama-Factory 使用指南：从入门到实战

在大模型落地越来越快的今天，越来越多开发者和企业开始尝试让通用模型'学会'自己的业务逻辑——比如客服对话、法律文书生成、医疗问答等。但一提到微调，很多人立刻想到复杂的训练脚本、满屏报错的日志、动辄几十 GB 的显存占用……最终只能望而却步。

有没有一种方式，能让我们不用写一行代码，点点鼠标就能完成专业级的大模型定制？答案是：有。而且它已经开源了，名字叫 Llama-Factory。

这个项目最近在 GitHub 上持续走热，不是因为它又搞了个新算法，而是它真的把'大模型微调'这件事做成了普通人也能上手的工具。你可以把它理解为一个'AI 工厂流水线'：你只需要准备好原料（数据）、选好机器（模型），剩下的清洗、加工、质检、打包，全由系统自动完成。

更关键的是，它支持 WebUI 图形界面操作，全程可视化配置，连参数含义都有提示。哪怕你是第一次接触 LoRA 或 QLoRA，也能在半小时内跑通整个流程。

我们不妨直接进入实战场景：假设你现在是一家教育科技公司的工程师，老板让你做一个能自动批改作文并给出评语的 AI 助教。你手上有一批标注好的学生作文和教师点评数据，目标是把这份领域知识注入到 llama3-8b 模型中。

怎么做？

第一步，当然是搭环境。Llama-Factory 的安装非常轻量，核心依赖只有 Python 3.9+ 和 PyTorch 2.0+。如果你用的是云服务器或本地 GPU 工作站，执行下面三行命令基本就能跑起来：

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -r requirements.txt

如果网络较慢，建议加上国内镜像源加速：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

装完之后，启动 WebUI：

python src/webui.py --server-name 0.0.0.0

看到终端输出 http://127.0.0.1:7860 就说明服务已就绪。打开浏览器访问这个地址，你会看到一个简洁的中文界面——没错，它原生支持多语言切换，左上角一键切中文，彻底告别'英文盲区'。

现在，真正的微调之旅才刚刚开始。

首先得告诉系统你要微调哪个模型。点击'模型名称'下拉框，你会发现支持列表长得惊人：从 LLaMA、Qwen、Baichuan 到 ChatGLM、Mistral、Gemma……主流架构几乎全覆盖。这里选择 llama3-8b，然后在'模型路径'里填入本地路径或 HuggingFace 的 repo ID。

这里有个坑要特别注意：路径必须包含完整的模型文件结构，尤其是 config.json 和 tokenizer.model。我见过太多人因为用了相对路径或者漏了 tokenizer 文件导致反复下载模型，白白浪费时间和带宽。

接下来是决定'怎么微调'。界面上提供了三种主流方法：全参数微调（full）、冻结微调（freeze）和 LoRA/QLoRA。对于大多数个人开发者来说，LoRA 是最优解；而对于显存不足的用户，QLoRA 更是救命稻草——它能在一张 RTX 3090 上微调 70B 级别的模型。

我们选 qlora，然后顺手把'量化等级'设为 4bit，这是 QLoRA 的必要条件。再勾上 flashattn2 和 unsloth 加速选项，推理速度能提升近一倍。

到这里，基础配置其实已经够用了。但如果你想进一步优化效果，可以展开'高级设置'看看更多隐藏功能。

比如'提示词模板'这一项，直接影响你的数据如何被喂给模型。如果你的数据格式是 instruction-input-output 结构，那就选 alpaca；如果是多轮对话，则用 chatml 或 zephyr。务必确保数据格式与模板匹配，否则模型根本学不会你在教什么。

另一个值得玩的参数是 RoPE 插值。默认情况下，llama3 支持 8K 上下文，但通过 linear 或 dynamic 缩放，你可以强行扩展到 32K 甚至更高。这对处理长文档任务（如论文摘要、合同分析）非常有用。

Llama-Factory 使用指南：从入门到实战