SakuraLLM 三种推理引擎对比
本文详细对比 llama.cpp、vLLM 和 Ollama 三种推理引擎在 SakuraLLM 模型上的性能差异、使用场景和配置要点。
推理引擎概述
SakuraLLM 项目提供了三种主流推理引擎支持,分别位于 infers/llama.py、infers/vllm.py 和 infers/ollama.py 目录中:
- llama.cpp - 轻量级 C++ 推理引擎
- vLLM - 高性能分布式推理库
- Ollama - 便捷的模型管理工具
llama.cpp:轻量级部署首选
llama.cpp 是基于 C++ 的推理引擎,以其轻量化和高效性著称。
核心优势:
- 内存优化:支持 GGUF 量化模型,显存占用最低
- 跨平台支持:CPU 和 GPU 均可运行
- 配置灵活:可调节 GPU 层数和上下文长度
适用场景:
- 个人电脑部署
- 资源受限环境
- 需要快速启动的场景
配置示例:
python server.py \\
--model_name_or_path ./models/sakura-13b-lnovel-v0.9b-Q4_K_M.gguf \\
--llama_cpp \\
--use_gpu \\
--model_version 0.9 \\
--trust_remote_code \\
--no-auth
依赖要求: 需安装 requirements.llamacpp.txt 中的依赖包。
vLLM:高性能专业选择
vLLM 是一个快速且易于使用的 LLM 分布式推理和服务库,专为高性能场景设计。
核心优势:
- 推理速度:支持 PagedAttention 技术,推理速度最快
- 多 GPU 支持:支持 tensor parallel 多 GPU 推理加速
- 量化支持:支持 GPTQ、AWQ、SqueezeLLM 等多种量化方法
适用场景:
- 需要高并发处理的服务器
- 多 GPU 环境
- 对推理速度要求极高的场景
配置示例:
python server.py \\
--model_name_or_path SakuraLLM/Sakura-13B-LNovel-v0.9 \\
--vllm \\
--model_version 0.9 \\
--trust_remote_code \\
--no-auth \\
--tensor_parallel_size 2 \\
--enforce_eager
依赖要求: 需安装 requirements.vllm.txt 中的依赖包。
Ollama:便捷部署方案
Ollama 提供了简单易用的模型管理方案,特别适合快速部署。
核心优势:
- 安装简便:使用 Docker 对模型进行管理
- 模型库丰富:从 ollama library 拉取模型速度快
- 自动管理:自动处理模型下载和版本更新
适用场景:

