8 卡 RTX 5090 服务器 llama.cpp 完整安装及性能调优 | 极客日志

C++AI算法

8 卡 RTX 5090 服务器 llama.cpp 完整安装及性能调优

提供基于 Ubuntu 22.04 LTS 的 8 卡 RTX 5090 服务器部署 llama.cpp 的完整流程。涵盖系统准备、NVIDIA 开源驱动安装、CUDA 环境配置、源码编译及多 GPU 加速测试。通过 Qwen3 模型验证了 8 卡并行推理性能，并提供了详细的参数调优方案以优化显存分配和生成速度。

全栈工匠发布于 2026/4/6更新于 2026/7/2366 浏览

8 卡 RTX 5090 服务器完整安装及性能调优指南

本文提供基于 Ubuntu 22.04 LTS，适配 Blackwell 架构的 8 卡 RTX 5090 服务器从 NVIDIA 驱动安装、CUDA 环境配置到 llama.cpp 编译及多 GPU 测试的完整流程。

一、系统与硬件准备

1.1 系统要求

推荐：Ubuntu 22.04 LTS（64 位）
内核：6.8+ HWE 内核（5090 必须高内核）
禁用：Nouveau 开源驱动（与 NVIDIA 驱动冲突）

1.2 硬件检查

# 查看 8 张 5090 是否被识别
lspci | grep -i nvidia
# 应输出 8 条 NVIDIA Corporation Device 2782 (rev a1)

文章配图

二、安装 NVIDIA 驱动（5090 专属流程）

2.1 卸载旧驱动与禁用 Nouveau

# 1. 彻底卸载旧 NVIDIA 驱动
sudo apt purge nvidia* libnvidia* -y
sudo apt autoremove -y

# 2. 禁用 Nouveau
sudo bash -c 'echo -e "blacklist nouveau\noptions nouveau modeset=0" > /etc/modprobe.d/blacklist-nouveau.conf'
sudo update-initramfs -u

# 3. 重启生效
sudo reboot

文章配图

2.2 安装高版本 HWE 内核（5090 强制要求）

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

# 安装 6.8+ HWE 内核
sudo apt update
sudo apt install linux-generic-hwe-22.04 -y
sudo reboot

# 验证内核版本（必须≥6.8）
uname -r
# 输出示例：6.8.0-45-generic

# 添加显卡驱动 PPA
sudo add-apt-repository ppa:graphics-drivers/ppa -y
sudo apt update

# 安装 590-open 驱动（5090 推荐）
sudo apt install nvidia-driver-590-open -y

# 重启
sudo reboot

# 验证驱动（8 卡均正常显示）
nvidia-smi

# 下载 CUDA 12.4 安装包
wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda_12.4.0_550.54.14_linux.run

# 安装（仅安装 CUDA Toolkit，不装驱动）
sudo sh cuda_12.4.0_550.54.14_linux.run --silent --toolkit

# 配置环境变量
echo 'export PATH=/usr/local/cuda-12.4/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

# 验证 CUDA
nvcc -V
# 输出应显示 release 12.4

sudo apt update
sudo apt install git build-essential cmake pkg-config libopenblas-dev -y

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

# 关键参数：
# LLAMA_CUDA=1：启用 CUDA
# LLAMA_CUDA_DMMV_X=32：提升多 GPU 显存效率
# LLAMA_CUDA_N_GRAPH_LAYERS=9999：全层 GPU 卸载
# LLAMA_CUDA_ARCHS=120：5090 专属算力（sm_120）
cmake -B build \
  -DLLAMA_CUDA=ON \
  -DLLAMA_CUDA_DMMV_X=32 \
  -DLLAMA_CUDA_N_GRAPH_LAYERS=9999 \
  -DLLAMA_CUDA_ARCHS=120 \
  -DCMAKE_BUILD_TYPE=Release

# 8 线程编译（匹配服务器 CPU 核心）
cmake --build build -j$(nproc)

./build/bin/llama-cli --help | grep -E "cuda|gpu"
# 应输出：--cuda, --gpu-layers N 等 CUDA 参数

# 进入模型目录
mkdir -p models && cd models

# 下载 Qwen3 32B Q4_K_M 量化模型（4-bit，显存友好）
wget https://hf-mirror.com/bartowski/Qwen_Qwen3-32B-GGUF/resolve/main/Qwen_Qwen3-32B-Q4_K_M.gguf

cd ..

cd ..
./build/bin/llama-cli \
-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \
--gpu-layers 99 \
-t 64 \
-c 32768 \
-p "你好"

./build/bin/llama-cli \
-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \
-n 1024 \
--gpu-layers 99 \
-t 32 \
-c 16384 \
-p "撰写关于 8x RTX 5090 服务器用于大语言模型（LLM）推理的技术概述。" \
--batch-size 1024 \
--mlock \
--flash-attn on

watch -n 1 nvidia-smi

# 8 卡极致性能参数
./build/bin/llama-cli \
-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \
-n 2048 \
--gpu-layers 99 \
-t 64 \
-c 32768 \
-p "撰写关于 8x RTX 5090 服务器用于大语言模型（LLM）推理的技术概述。" \
--batch-size 2048 \
--mlock \
--flash-attn on \
--no-mmap \
--numa distribute

# 示例：前 40 层到 GPU0，后 40 层到 GPU1-7
./build/bin/llama-cli -m models/Qwen_Qwen3-32B-Q4_K_M.gguf -n 2048 --gpu-layers 80 --main-gpu 0 -t 64 -c 32768 -p "撰写关于 8x RTX 5090 服务器用于大语言模型（LLM）推理的技术概述。" --batch-size 2048 --mlock --flash-attn on --no-mmap --numa distribute

./build/bin/llama-cli \
-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \
-n 4096 \
--gpu-layers 99 \
-t 64 \
-c 32768 \
-p "阐述 8x RTX 5090 在大型语言模型部署中的优势。" \
--batch-size 2048 \
--mlock \
--flash-attn on

./build/bin/llama-bench \
-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \
-t 64 \
-p 512,2048,8192 \
-n 128,512,2048 \
-ngl 99 \
-b 2048 \
-ub 512 \
-fa 1 \
-r 3 
2>&1 | tee benchmark_results.txt

model	size	params	backend	ngl	fa	test	t/s
qwen3 32B Q4_K - Medium	18.40 GiB	32.76 B	CUDA	99	1	pp512	3569.28 ± 44.41
qwen3 32B Q4_K - Medium	18.40 GiB	32.76 B	CUDA	99	1	pp2048	3744.03 ± 0.42
qwen3 32B Q4_K - Medium	18.40 GiB	32.76 B	CUDA	99	1	pp8192	3512.90 ± 0.50
qwen3 32B Q4_K - Medium	18.40 GiB	32.76 B	CUDA	99	1	tg128	66.56 ± 0.02
qwen3 32B Q4_K - Medium	18.40 GiB	32.76 B	CUDA	99	1	tg512	66.29 ± 0.07
qwen3 32B Q4_K - Medium	18.40 GiB	32.76 B	CUDA	99	1	tg2048	65.12 ± 0.03

8 卡 RTX 5090 服务器 llama.cpp 完整安装及性能调优

8 卡 RTX 5090 服务器完整安装及性能调优指南

一、系统与硬件准备

1.1 系统要求

1.2 硬件检查

二、安装 NVIDIA 驱动（5090 专属流程）

2.1 卸载旧驱动与禁用 Nouveau

2.2 安装高版本 HWE 内核（5090 强制要求）

更多推荐文章

相关免费在线工具

2.3 安装 5090 专用开源驱动（-open）

三、安装 CUDA Toolkit（llama.cpp 依赖）

3.1 安装 CUDA 12.4（与 590 驱动匹配）

3.2 安装基础编译工具（llama.cpp 多 GPU 核心依赖）

四、编译 llama.cpp（开启 8 卡 CUDA 加速）

4.1 克隆源码

4.2 编译（开启 CUDA + 多 GPU + 5090 算力 sm_120）

4.3 验证编译

五、准备 GGUF 模型（测试用）

5.1 下载测试模型（以 Qwen3 32B Q4_K_M 为例）

六、8 卡 5090 llama.cpp 测试（核心步骤）

6.1 单卡基础测试（验证 CUDA）

6.2 8 卡并行测试（多 GPU 自动负载均衡）

6.3 8 卡显存与负载验证

七、性能调优（8 卡 5090 专属）

7.1 关键参数优化

7.2 多 GPU 显存分配（手动指定）

八、常见问题排查

九、最终验证

十、输出测试效果

更多推荐文章

相关免费在线工具

8 卡 RTX 5090 服务器 llama.cpp 完整安装及性能调优

8 卡 RTX 5090 服务器完整安装及性能调优指南

一、系统与硬件准备

1.1 系统要求

1.2 硬件检查

二、安装 NVIDIA 驱动（5090 专属流程）

2.1 卸载旧驱动与禁用 Nouveau

2.2 安装高版本 HWE 内核（5090 强制要求）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 安装 5090 专用开源驱动（-open）

三、安装 CUDA Toolkit（llama.cpp 依赖）

3.1 安装 CUDA 12.4（与 590 驱动匹配）

3.2 安装基础编译工具（llama.cpp 多 GPU 核心依赖）

四、编译 llama.cpp（开启 8 卡 CUDA 加速）

4.1 克隆源码

4.2 编译（开启 CUDA + 多 GPU + 5090 算力 sm_120）

4.3 验证编译

五、准备 GGUF 模型（测试用）

5.1 下载测试模型（以 Qwen3 32B Q4_K_M 为例）

六、8 卡 5090 llama.cpp 测试（核心步骤）

6.1 单卡基础测试（验证 CUDA）

6.2 8 卡并行测试（多 GPU 自动负载均衡）

6.3 8 卡显存与负载验证

七、性能调优（8 卡 5090 专属）

7.1 关键参数优化

7.2 多 GPU 显存分配（手动指定）

八、常见问题排查

九、最终验证

十、输出测试效果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具