LLM 大模型推理加速方案：vllm、fastllm、llama.cpp 使用指南与总结 | 极客日志

PythonAI算法

LLM 大模型推理加速方案：vllm、fastllm、llama.cpp 使用指南与总结

综述由AI生成LLM 大模型推理加速的主流方案，涵盖 vllm、fastllm、llama.cpp 等框架的安装与使用。详细讲解了 privateGPT 和 ollama 的本地部署流程，并补充了 MindSpore 与 OpenVINO 的推理特性。文章对比了各方案的优缺点，提供了量化、并发及配置优化的实践建议，旨在帮助开发者选择合适的推理后端以提升性能。

flc发布于 2025/2/6更新于 2026/6/419 浏览

LLM 大模型推理加速方案

随着大语言模型（LLM）的广泛应用，推理速度和资源消耗成为关键考量因素。本文详细介绍了几种主流的推理加速框架及本地部署方案，包括 vllm、fastllm、llama.cpp，并补充了 MindSpore 和 OpenVINO 的使用指南，旨在帮助开发者选择合适的推理后端。

vllm

vllm 是一个专为大规模语言模型服务设计的高性能推理引擎，支持连续批处理（Continuous Batching）和 PagedAttention 技术，显著提高了吞吐量。

安装与环境配置

conda create --name vllm python=3.10
conda activate vllm
pip install vllm

代码示例

from vllm import LLM, SamplingParams

prompts = [
    "Hello, my name is",
    "The president of the United States is",
    "The capital of France is",
    "The future of AI is",
]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

# 加载模型，请替换为实际路径
llm = LLM(model="<model_path>", trust_remote_code=True)

outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

建议将 vllm 用在 Triton 引擎中，以进一步利用 GPU 资源优化服务部署。

fastllm

fastllm 是一个轻量级的 C++ 深度学习推理库，专注于量化支持和快速部署，适合对延迟敏感的场景。

编译与安装

git clone https://github.com/ztxz16/fastllm
cd fastllm
mkdir build
cd build
cmake .. -DUSE_CUDA=ON
make -j
cd tools && python setup.py install

pip install tiktoken einops transformers_stream_generator

模型量化

python3 tools/qwen2flm.py qwen-7b-int4.flm int4

运行 Demo

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 命令行聊天程序，支持打字机效果 (只支持 Linux)
./main -p model.flm 
# 简易 webui，使用流式输出 + 动态 batch，可多路并发访问
./webui -p model.flm --port 1234 
# Python 版本的命令行聊天程序
python tools/cli_demo.py -p model.flm 
# Python 版本的简易 webui
streamlit run tools/web_demo.py model.flm

from fastllm_pytools import llm

# 模型创建
model = llm.model("model.flm")

# 生成回复
print(model.response("你好"))

# 流式生成回复
for response in model.stream_response("你好"):
    print(response, flush=True, end="")

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j LLAMA_CUBLAS=1

# 转换 HF 模型为 GGUF
python convert-hf-to-gguf.py <hf_model_path>
# 量化到 4-bit (使用 Q4_K_M 方法)
./quantize <model_f16.gguf> <model_Q4_K_M.gguf> Q4_K_M

git clone https://github.com/imartinez/privateGPT
cd privateGPT

conda create --name privateGPT python=3.11
conda activate privateGPT

curl -sSL https://install.python-poetry.org | python3 -
export PATH=$PATH:$HOME/.local/bin
poetry install --with ui
poetry install --with local
make run

server:
  env_name: prod
  port: 8001
  cors:
    enabled: false
    allow_origins: ["*"]
  auth:
    enabled: false

data:
  local_data_folder: local_data/private_gpt

ui:
  enabled: true
  default_chat_system_prompt: >
    请根据 instructions 回答问题.

llm:
  mode: local
  max_new_tokens: 512
  context_window: 3900
  tokenizer: <tokenizer_path>

embedding:
  mode: local
  ingest_mode: simple

vectorstore:
  database: qdrant

qdrant:
  path: local_data/private_gpt/qdrant

local:
  prompt_style: "llama2"
  llm_hf_repo_id: Baichuan2-7B-Chat
  llm_hf_model_file: <gguf_model_path>
  embedding_hf_model_name: <embedding_model_path>

poetry run python scripts/setup

go generate ./...
go build .

# 运行服务
./ollama serve

# 编辑模型文件
vi Modelfile

FROM <gguf_model_path>

./ollama create example -f Modelfile
./ollama run example

curl http://localhost:11434/api/chat -d '{
  "model": "example",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

pip install mindspore

import mindspore as ms
from mindspore import nn

# 设置设备
ms.set_context(device_target="Ascend")

# 加载模型
model = nn.Cell()
model.load_weights("<model_path>")

# 执行推理
output = model(input_data)

pip install openvino-dev

from openvino.runtime import Core

core = Core()
# 读取模型
compiled_model = core.compile_model(model_xml, "CPU")
# 执行推理
result = compiled_model([input_tensor])

框架	优势	适用场景
vllm	高吞吐量，PagedAttention，适合服务端并发	高并发 API 服务
fastllm	轻量级，量化支持好，C++ 底层	边缘设备，低延迟需求
llama.cpp	CPU 友好，GGUF 格式通用，社区活跃	个人电脑，无 GPU 环境
privateGPT	内置 RAG，知识库管理	企业私有知识库问答
ollama	部署简单，API 标准	快速原型，本地开发
MindSpore	华为昇腾硬件优化	华为云/昇腾服务器
OpenVINO	Intel 硬件深度优化	Intel CPU/GPU 服务器

LLM 大模型推理加速方案：vllm、fastllm、llama.cpp 使用指南与总结

LLM 大模型推理加速方案

vllm

安装与环境配置

代码示例

fastllm

编译与安装

模型量化

运行 Demo

更多推荐文章

相关免费在线工具

代码集成

llama.cpp

环境安装和模型量化

相关生态项目

privateGPT

ollama

MindSpore

安装与配置

推理示例

OpenVINO

安装与优化

典型流程

总结

更多推荐文章

相关免费在线工具

LLM 大模型推理加速方案：vllm、fastllm、llama.cpp 使用指南与总结

LLM 大模型推理加速方案

vllm

安装与环境配置

代码示例

fastllm

编译与安装

模型量化

运行 Demo

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

代码集成

llama.cpp

环境安装和模型量化

相关生态项目

privateGPT

ollama

MindSpore

安装与配置

推理示例

OpenVINO

安装与优化

典型流程

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具