01 - 大模型推理框架选型入门:Ollama、llama.cpp与vLLM全景对比

01 - 大模型推理框架选型入门:Ollama、llama.cpp与vLLM全景对比

本文是《大模型推理框架深度解析》系列的第一篇,适合刚接触LLM部署的开发者阅读。

写在前面

随着大语言模型(LLM)的广泛应用,如何将模型高效地部署到生产环境成为每个AI工程师必须面对的问题。目前市面上主流的推理框架有Ollama、llama.cpp和vLLM,但它们的技术定位、适用场景差异巨大。

很多开发者在选型时容易陷入误区:

  • 用Ollama部署高并发API服务,结果吞吐量上不去
  • 用vLLM跑边缘设备,发现资源占用过高
  • 混淆llama.cpp和vLLM的定位,不知道何时该用哪个

本文将从架构分层视角出发,帮你建立清晰的选型认知。


一、三大框架的技术定位

1.1 三层架构视角

如果把LLM推理技术栈比作一座大厦,三个框架分别位于不同的楼层:

┌─────────────────────────────────────────────────────────────┐ │ 应用层(第3层) │ │ ┌─────────────┐ │ │ │ Ollama │ ← 一键式模型管理,类似Docker的体验 │ │ └─────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 推理引擎层(第2层) │ │ ┌─────────────┐ ┌─────────────────────────────────────┐ │ │ │ llama.cpp │ │ vLLM │ │ │ │ C++引擎 │ │ Python推理服务平台 │ │ │ └─────────────┘ └─────────────────────────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 硬件加速层(第1层) │ │ CUDA / Metal / ROCm / AVX512 │ └─────────────────────────────────────────────────────────────┘ 

核心区别一句话总结

  • Ollama:让开发者"开箱即用"的工具层
  • llama.cpp:追求极致轻量的C++推理引擎
  • vLLM:面向生产的高吞吐推理服务平台

1.2 各框架的本质定位

维度Ollamallama.cppvLLM
本质模型管理工具推理引擎库推理服务框架
设计目标开发便捷跨平台兼容高吞吐服务化
核心用户开发者/研究者嵌入式工程师SRE/运维工程师
部署形态单二进制文件静态库/可执行文件Python服务+API

1.3 Ollama的真相:llama.cpp的封装层

很多开发者不知道的是,Ollama底层调用的正是llama.cpp:

Ollama CLI → Modelfile解析 → GGUF模型下载 → llama.cpp推理引擎 

这意味着:

  • Ollama的"简单"是有代价的——它隐藏了llama.cpp的精细调参能力
  • 在高并发场景下,Ollama的HTTP层成为瓶颈
  • 生产环境建议绕过Ollama,直接使用底层引擎

二、适用场景速查表

2.1 按使用场景选型

场景推荐框架理由
本地开发测试Ollama一键安装,Modelfile灵活配置
MacBook Pro本地跑70Bllama.cppMetal后端优化,统一内存优势
边缘设备/嵌入式llama.cppARM NEON优化,低资源占用
高并发API服务vLLM连续批处理,PagedAttention
70B+大模型生产部署vLLMTP/PP分布式支持完善
MoE模型(DeepSeek)vLLMEP专家并行原生支持
CPU兜底/降级链路llama.cpp跨平台稳定,GGUF生态成熟

2.2 按硬件环境选型

无GPU环境

# 唯一选择:llama.cpp ./llama-cli -m model.gguf --threads 32

单卡消费级GPU(RTX 4090 24GB)

# 7B-13B模型:vLLM或llama.cpp均可# 70B模型:必须用量化版 + vLLM vllm serve --model llama-70b-awq --quantization awq 

多卡数据中心GPU(A100/H100)

# vLLM是最佳选择 vllm serve --model llama-405b --tensor-parallel-size 8

Apple Silicon(M1/M2/M3)

# llama.cpp Metal后端最优 ./llama-cli -m model.gguf -ngl 99# 全部层卸载到GPU

三、快速上手示例

3.1 Ollama:5分钟跑起来

# 安装curl -fsSL https://ollama.com/install.sh |sh# 拉取并运行模型 ollama run llama3.1:70b # 自定义Modelfilecat> Modelfile <<'EOF' FROM llama3.1:70b PARAMETER temperature 0.7 PARAMETER top_p 0.9 SYSTEM "你是一个专业的编程助手" EOF ollama create my-model -f Modelfile 

3.2 llama.cpp:从源码构建

# 克隆并编译git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp make -j LLAMA_CUDA=1# NVIDIA GPU# 下载GGUF模型并运行 ./llama-cli \ -m models/llama-3.1-70b-Q4_K_M.gguf \ --ctx-size 32768\ --threads 32\ -ngl 99# GPU层数,99表示全部

3.3 vLLM:生产级部署

# pip安装 pip install vllm # 启动服务 vllm serve meta-llama/Llama-3.1-70B \ --tensor-parallel-size 4\ --gpu-memory-utilization 0.85\ --max-model-len 32768\ --enable-prefix-caching # 调用APIcurl http://localhost:8000/v1/completions \ -H "Content-Type: application/json"\ -d '{ "model": "meta-llama/Llama-3.1-70B", "prompt": "Hello,", "max_tokens": 100 }'

四、常见误区澄清

误区1:Ollama可以替代vLLM用于生产

真相:Ollama的HTTP层和调度逻辑在高并发下会成为瓶颈。实测数据显示,相同硬件下vLLM的吞吐量是Ollama的3-5倍。

误区2:llama.cpp比vLLM慢,应该被淘汰

真相:llama.cpp在CPU推理和边缘设备场景下是最佳选择。它的跨平台能力和GGUF生态是vLLM无法替代的。

误区3:vLLM支持所有模型格式

真相:vLLM主要支持HuggingFace格式(safetensors/bin),而llama.cpp专注于GGUF。选型前需要确认模型格式支持。


五、系列文章预告

本文是系列的开篇,后续将深入各个技术细节:

  • 02 - 量化与性能:GGUF、AWQ、GPTQ的原理差异与性能基准
  • 03 - KV Cache与批处理:PagedAttention如何让内存利用率从60%提升到95%
  • 04 - 分布式推理:TP/PP/EP并行策略的原理与配置
  • 05 - 生产架构:Kubernetes部署与混合链路设计
  • 06 - 故障排查:监控指标、性能调优与故障演练

参考资源


文章标签

大模型推理LLM部署vLLMllama.cppOllamaAI工程化模型量化

Read more

FT8440AD非隔离12V350mA智能家居芯片方案(直接替代SDH8302)

FT8440AD非隔离12V350mA智能家居芯片方案(直接替代SDH8302)

在智能家居设备日益普及的今天,一个高效、可靠且成本效益高的电源管理方案成为了设计成功的关键。FT8440AD,一款12V/350mA的非隔离智能家居芯片,以其卓越的性能和直接替代SDH8302的能力,成为了市场上的一颗新星。三佛科技将深入探讨FT8440AD的电路设计、BOM清单以及其在实际应用中的表现,展示如何利用这一芯片打造一个既经济又高效的智能家居供电方案。 FT8440AD芯片特点 * 内置 500 V MOSFET,Rdson 典型 8 Ω,无需外置高压 MOS; * 高压启动电路,50 ms 急速 VCC 建立,省掉 22 kΩ/2 W 启动电阻; * 频率 35 kHz±6 % 抖频,EMI 峰值自动打散,轻松过 CISPR22 Class B; * 逐周期 OCP、OVP、OTP、SCP

*ARINC 825,一种航电通信总线标准

*ARINC 825,一种航电通信总线标准

1. 它是什么 ARINC 825 是一个航空电子领域的技术标准,主要规范了在航空器内部如何使用一种名为“控制器局域网”(CAN)的数据总线进行通信。可以把它理解为航空界为CAN总线制定的一套精细的“交通规则”和“车辆制造标准”。 在生活中,CAN总线类似于小区或办公楼里的内部电话网络,各个房间(设备)可以通过这个网络互相通话。而ARINC 825 则详细规定了在这个高端、高安全要求的“航空大厦”里,这个内部电话应该用什么线路、怎么拨号、说什么语言、通话的优先级如何安排,以确保沟通绝对可靠、有序。 2. 它能做什么 它的核心作用是实现航空器上不同电子设备之间稳定、高效、可预测的数据交换。这些设备包括飞行控制系统、发动机指示系统、舱内压力控制系统等。 例如,想象一架飞机的机翼上有多个传感器,监测结冰情况。这些传感器需要将“探测到冰”这个消息快速、可靠地告知除冰系统和飞行员显示面板。ARINC 825 确保了这条关键消息能在复杂的电子环境中,像消防通道一样,拥有最高优先级,

探索多无人机、移动机器人全覆盖与协同路径规划

探索多无人机、移动机器人全覆盖与协同路径规划

多无人机 移动机器人 扫地机器人 全覆盖路径规划 多无人机 移动机器人协同路径规划 multi uav robot coverage path planning,cpp,mcpp algorithm基于 A 星算法的路径规划方法,地图可自定义设置,障碍物也可自定义设置,算法适合二次开发使用 在智能机器人领域,路径规划一直是关键技术,尤其是多无人机、移动机器人以及扫地机器人这类常见设备的全覆盖路径规划,更是备受关注。今天咱们就来唠唠基于 A 星算法的相关路径规划方法,以及围绕它展开的一些有意思的内容。 A 星算法的基础 A 星算法是一种在图形平面上,有多个节点的路径,求出最低通过成本的算法。它综合考虑了从起点到当前点的实际代价 g(n),以及从当前点到终点的预估代价 h(n),通过公式 f(n) = g(n) + h(n) 来评估每个节点的优先级,优先拓展

基于FPGA的北斗导航自适应抗干扰算法的设计与实现(任务书+开题报告+文献综述+代码+仿真+实物+毕业论文)

基于FPGA的北斗导航自适应抗干扰算法的设计与实现(任务书+开题报告+文献综述+代码+仿真+实物+毕业论文)

摘   要 如今,随着卫星导航技术的飞速发展,位置信息服务已经融入到我们的日常生活中,导航目前被称为继移动互联网后第三大产业。卫星导航在维护国家的安全中也发挥着不可替代的作用。为了使导航系统不受干扰的影响,本文以北斗导航系统为平台,研究基于阵列天线的自适应抗干扰算法。 首先,文章就自适应抗干扰算法的原理和方法进行了系统介绍,并在MATLAB中建立阵列模型,对基于功率倒置算法的空域抗干扰算法和空时联合抗干扰算法进行性能仿真。然后根据系统的指标,确定了在FPGA中实现抗干扰算法的方案,包括数字下变频、权值计算、数据加权、数字上变频等模块。根据权值计算模块实现方式的不同,本文提供了两种抗干扰算法在FPGA中实现的方案:一种是基于FPGA嵌入式软核NIOS II的抗干扰实现,将权值计算的过程放在NIOS II软核中,用C语言进行实现;另一种是基于逻辑语言的抗干扰算法的实现,即用硬件描述语言Verilog HDL进行权值的计算。权值计算涉及到浮点数运算和Hermite矩阵求逆,本文给出了各模块的设计方法和仿真结果,并与MATLAB仿真结果进行对比。最后给出了两种实现方案的实测结果,表明两种实