LLaMA-Factory 推理实战指南：从配置到生产部署 | 极客日志

PythonAI算法

LLaMA-Factory 推理实战指南：从配置到生产部署

LLaMA-Factory 推理全流程涵盖环境准备、YAML 配置、命令行与 Web 交互、批量生成及 API 服务化部署。重点介绍 vLLM 引擎优化显存与吞吐量，解决 CUDA OOM、模板匹配等常见问题，并提供不同场景下的推理策略建议，助力大模型高效落地。

橘子海发布于 2026/4/8更新于 2026/7/635 浏览

LLaMA-Factory 推理实战：从配置到生产部署的全流程指南

LLaMA-Factory 是一个标准化的大语言模型运行时平台。支持通义千问、百川、ChatGLM 和 Llama 3 等模型，以统一方式加载、对话、批量生成甚至发布为 API。

环境准备

推荐使用 Python ≥ 3.10 和 PyTorch 2.0+ 环境。项目克隆后安装依赖：

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -r requirements.txt

若追求高吞吐量，建议额外安装 vllm：

pip install vllm

vLLM 的 PagedAttention 技术能显著提升显存利用率，在高并发场景下性能可达 Hugging Face 默认生成器的 3~5 倍。初期调试建议先用 Hugging Face 后端，特别是多模态或结构特殊的模型。

模型支持

支持稳定运行的模型包括 Meta 的 LLaMA 系列、阿里云 Qwen 系列、百川 Baichuan2、智谱 ChatGLM3 及多模态代表 LLaVA、Qwen-VL 等。可通过 Hugging Face Hub 直接拉取或本地路径加载。无论原始模型还是微调结果（LoRA、QLoRA、全参数），只需修改配置文件中的 finetuning_type 和适配器路径即可切换。

配置文件

使用 YAML 文件定义模型行为。典型配置包含以下字段：

参数名	作用说明
`model_name_or_path`	模型来源，支持 HF 仓库名或本地路径
`template`	对话模板，决定输入拼接方式，必须与模型匹配
`adapter_name_or_path`	微调后产生的适配器权重路径（LoRA/QLoRA）
`finetuning_type`	微调类型，可选 `lora`, `qlora`, `full`
`infer_backend`	推理引擎，`huggingface` 或 `vllm`
`load_in_4bit`	是否启用 4-bit 量化加载，节省显存

template 最容易出问题。例如 Qwen 系列必须使用 qwen 模板，ChatGLM 要用 chatglm3，Llama 3 需对应 llama3。如果官方未提供合适模板，可自定义分隔符格式：

custom_template:
  system: "<|system|>\n{content}<|end|>\n"
  user: "<|user|>\n{content}<|end|>\n"
  assistant: "<|assistant|>\n{content}<|end|>\n"

推理任务

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# qwen_original.yaml
model_name_or_path: Qwen/Qwen-7B-Instruct
template: qwen
infer_backend: huggingface

llamafactory-cli chat qwen_original.yaml

# baichuan2_lora_medical.yaml
model_name_or_path: baichuan-inc/Baichuan2-13B-Chat
adapter_name_or_path: saves/baichuan2-lora-medical
template: baichuan2
finetuning_type: lora
infer_backend: vllm

llamafactory-cli webchat baichuan2_lora_medical.yaml

[
  {"instruction": "高血压的诊断标准是什么？"},
  {"instruction": "冠心病的主要症状有哪些？"},
  {"instruction": "如何预防脑卒中？"}
]

python src/llmtuner/export_model.py \
  --model_name_or_path baichuan-inc/Baichuan2-13B-Chat \
  --adapter_name_or_path saves/baichuan2-lora-medical \
  --output_dir models/baichuan2-13b-medical-merged \
  --finetuning_type lora

python scripts/vllm_infer.py \
  --model_name_or_path models/baichuan2-13b-medical-merged \
  --dataset data/medical_qa.json \
  --output_dir results/medical_answers.json \
  --tensor_parallel_size 2 \
  --max_num_batched_tokens 4096

# chatglm3_lora_api.yaml
model_name_or_path: THUDM/chatglm3-6b
adapter_name_or_path: saves/chatglm3-lora-finance
template: chatglm3
finetuning_type: lora
infer_backend: huggingface

API_PORT=8000 CUDA_VISIBLE_DEVICES=0 llamafactory-cli api chatglm3_lora_api.yaml

场景	推荐引擎	理由
快速测试、多模态模型	`huggingface`	兼容性强，调试方便
高并发 API 或批量任务	`vllm`	吞吐量高，支持连续批处理
显存紧张设备	`huggingface + load_in_4bit`	可运行 QLoRA 70B 级模型

LLaMA-Factory 推理实战指南：从配置到生产部署

LLaMA-Factory 推理实战：从配置到生产部署的全流程指南

环境准备

模型支持

配置文件

推理任务

更多推荐文章

相关免费在线工具

命令行交互模式

Web 界面测试

批量推理

服务化部署

常见问题排查

推理策略建议

拓展方向

更多推荐文章

相关免费在线工具

LLaMA-Factory 推理实战指南：从配置到生产部署

LLaMA-Factory 推理实战：从配置到生产部署的全流程指南

环境准备

模型支持

配置文件

推理任务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

命令行交互模式

Web 界面测试

批量推理

服务化部署

常见问题排查

推理策略建议

拓展方向

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具