Llama Factory 一键生成可部署 API 服务
对于移动应用开发者而言,微调完文本分类模型后,如何将其快速转化为可调用的 API 接口是关键问题。本文将介绍如何利用 Llama Factory 的功能,无需复杂编码即可生成可部署的 API 服务,实现从训练到上线的快速路径。
这类任务通常需要 GPU 环境支持。下面从零开始,完整走通这个流程。
为什么需要 API 服务化?
- 应用集成需求:移动端 APP 通常通过 HTTP 请求与后端交互,直接调用模型文件几乎不可行
- 资源隔离:将模型部署为独立服务,避免移动设备性能瓶颈
- 版本管理:API 接口可保持稳定,后台模型可随时更新替换
提示:Llama Factory 内置的 API 生成功能基于 FastAPI 框架,默认支持 Swagger 文档自动生成。
准备工作:检查你的微调成果
在开始 API 部署前,请确认你已完成以下步骤:
- 成功微调模型并保存检查点(通常为
adapter_model.bin文件) - 记录模型基座名称(如
Qwen-7B) - 准备测试用的输入样本(验证 API 调用格式)
# 典型微调产出目录结构
finetuned_model/
├── adapter_config.json
├── adapter_model.bin
└── README.md
一键生成 API 服务
Llama Factory 提供了命令行工具直接启动 API 服务:
python src/api_demo.py \
--model_name_or_path Qwen-7B \
--adapter_name_or_path ./finetuned_model \
--template default \
--infer_backend vllm \
--port 8000
关键参数说明:
| 参数 | 作用 | 典型值 |
|---|---|---|
--model_name_or_path | 指定基座模型 | Qwen-7B, ChatGLM3 等 |
--adapter_name_or_path | 微调适配器路径 | 本地目录路径 |
--template | 对话模板 | default, qwen, chatglm3 等 |
--infer_backend | 推理引擎 | vllm, hf, transformers 等 |
API 调用实战
服务启动后,你可以通过两种方式测试接口:
方法一:直接 HTTP 请求
curl -X POST "http://localhost:8000/generate" \
-H "Content-Type: application/json" \
-d '{"inputs":"这件衣服是正品吗?","parameters":{"max_new_tokens":50}}'

