llama.cpp 多 GPU 分布式计算优化实践 | 极客日志

C++AI算法

llama.cpp 多 GPU 分布式计算优化实践

针对 llama.cpp 在多 GPU 环境下的推理性能问题，梳理了设备发现机制与层分配策略。通过配置 CMake 编译参数启用 CUDA/Metal 后端，结合 --split-mode 实现显存自动或手动分片。实践中需关注 tensor-split 比例与 PCIe 带宽限制，利用 llama-bench 监控负载均衡。实测显示双卡优化后推理速度可提升 135%，有效缓解单卡显存溢出风险。

蜜桃汽水发布于 2026/4/10更新于 2026/7/2741 浏览

llama.cpp 多 GPU 分布式计算优化实践

在大模型本地部署中，单卡显存往往成为瓶颈。通过合理配置 llama.cpp 的多 GPU 支持，可以有效利用多卡资源提升推理吞吐并降低延迟。以下从设备调度、编译构建到参数调优的实战经验，帮助你在多卡环境下跑通高性能推理。

设备发现与调度机制

llama.cpp 基于 GGML 后端管理跨设备计算。启动时系统会自动扫描可用硬件，按优先级排序：RPC 服务器优先用于远程调用，其次是独立 GPU，最后才是集成显卡。这种策略旨在最小化数据传输开销。

核心逻辑在设备管理模块中实现，代码大致如下：

// src/llama.cpp:190-248 设备分类与优先级排序
std::vector<ggml_backend_dev_t> gpus;
std::vector<ggml_backend_dev_t> igpus;
std::vector<ggml_backend_dev_t> rpc_servers;

// 优先添加 RPC 服务器，减少网络传输
model->devices.insert(model->devices.begin(), rpc_servers.begin(), rpc_servers.end());
// 其次添加独立 GPU
model->devices.insert(model->devices.end(), gpus.begin(), gpus.end());
// 最后添加集成 GPU（仅当无其他设备时）
if (model->devices.empty()) {
    model->devices.insert(model->devices.end(), igpus.begin(), igpus.end());
}

实际运行时，日志会输出每个设备的类型、ID 及剩余显存，例如：

llama_model_load_from_file: using device 0 (GPU) (NVIDIA GeForce RTX 4090) (PCIe 4.0) - 23028 MiB free
llama_model_load_from_file: using device 1 (GPU) (NVIDIA GeForce RTX 3060) (PCIe 3.0) - 11019 MiB free

环境构建与编译配置

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

cmake -S . -B build -DLLAMA_CUBLAS=ON -DLLAMA_METAL=ON
cmake --build build -j 8

参数	作用	适用场景
`-DLLAMA_CUBLAS=ON`	启用 NVIDIA GPU 加速	NVIDIA 显卡用户
`-DLLAMA_METAL=ON`	启用 Apple Metal 支持	M 系列芯片 Mac
`-DLLAMA_HIPBLAS=ON`	启用 AMD GPU 加速	AMD 显卡用户
`-DLLAMA_RPC=ON`	启用远程 GPU 调用	多机分布式部署

./examples/parallel/llama-parallel \
  -m model.gguf \
  -np 8 -ns 128 \
  --split-mode auto \
  --main-gpu 0 \
  --tensor-split 0.6,0.4 \
  -c 16384

./tools/llama-bench/llama-bench -m model.gguf -ngl 32 --multi-gpu 2

cmake -B build -DLLAMA_CUBLAS=ON && cmake --build build

--layer-split 0,3,7

配置项	细节
GPU	2×RTX 4090(24GB)
CPU	Intel i9-13900K
内存	64GB DDR5
模型	Llama3-70B-GGUF(Q4_K_M)
系统	Ubuntu 22.04 + CUDA 12.1

配置	加载时间	推理速度	显存占用
单 GPU	45 秒	8.2 t/s	22.3GB
双 GPU(自动)	32 秒	15.6 t/s	14.8GB+12.5GB
双 GPU(优化)	28 秒	19.3 t/s	13.2GB+13.1GB

llama.cpp 多 GPU 分布式计算优化实践

llama.cpp 多 GPU 分布式计算优化实践

设备发现与调度机制

环境构建与编译配置

更多推荐文章

相关免费在线工具

多 GPU 模式选择

性能调优实战

核心命令行参数

性能监控工具

常见问题诊断

设备识别失败

显存溢出 (OOM)

多 GPU 负载不均衡

最佳实践与性能对比

测试环境配置

性能对比结果

架构流程

总结

更多推荐文章

相关免费在线工具

llama.cpp 多 GPU 分布式计算优化实践

llama.cpp 多 GPU 分布式计算优化实践

设备发现与调度机制

环境构建与编译配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

多 GPU 模式选择

性能调优实战

核心命令行参数

性能监控工具

常见问题诊断

设备识别失败

显存溢出 (OOM)

多 GPU 负载不均衡

最佳实践与性能对比

测试环境配置

性能对比结果

架构流程

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具