Llama-3.2-3B 部署与 Ollama GPU 加速（CUDA/cuDNN）全流程 | 极客日志

Shell / BashAI算法

Llama-3.2-3B 部署与 Ollama GPU 加速（CUDA/cuDNN）全流程

如何在 Ollama 中为 Llama-3.2-3B 模型启用 NVIDIA GPU 加速。内容包括前置环境检查（驱动、CUDA、Ollama 版本）、核心配置命令（OLLAMA_NUM_GPU）、性能实测对比及常见问题排查（显存溢出、Docker 部署等）。通过设置环境变量，用户可显著提升推理速度并降低首字延迟，实现本地高效部署。

云间运维发布于 2026/4/6更新于 2026/7/747 浏览

Llama-3.2-3B 步骤详解：Ollama 部署后启用 GPU 加速（CUDA/cuDNN）全流程

1. 为什么需要 GPU 加速？——从'能跑'到'跑得快'的关键跃迁

你可能已经用 Ollama 成功拉起了 Llama-3.2-3B，输入几句话就能看到回复，一切看似顺利。但当你连续提问、生成稍长文本，或者尝试多轮对话时，会明显感觉到响应变慢——几秒甚至十几秒的等待，让原本流畅的交互体验打了折扣。

这不是模型能力的问题，而是默认情况下 Ollama 在 CPU 上运行。Llama-3.2-3B 虽是 3B 参数量的轻量级模型，但其 Transformer 结构天然适合并行计算。一块中端消费级显卡（比如 RTX 3060 或更高），在 GPU 模式下推理速度可比 CPU 快 3～5 倍，显存占用更合理，还能释放出 CPU 资源去做其他事。

更重要的是，Ollama 官方明确支持 CUDA 加速，且无需手动编译模型或修改源码。整个过程不涉及复杂配置文件编辑，也不要求你成为 CUDA 专家——只要你的机器有 NVIDIA 显卡、驱动正常、CUDA 环境基础就绪，就能完成切换。本文将带你从零开始，一步步验证环境、启用加速、实测对比，并解决你最可能卡住的几个真实问题。

2. 前置检查：确认你的系统已具备 GPU 加速条件

在敲任何命令之前，请先花 2 分钟做三件事。跳过这步，后面 90% 的'加速失败'都源于此。

2.1 验证 NVIDIA 显卡与驱动状态

打开终端（Windows 用户请使用 PowerShell 或 WSL2 中的 bash），运行：

nvidia-smi

如果看到类似这样的输出（含 GPU 型号、驱动版本、运行中的进程），说明驱动已正确安装：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03 Driver Version: 535.129.03 CUDA Version: 12.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce RTX 4070 Off | 00000000:01:00.0 On | N/A |
| % 41C  7W / 200W|| %  |

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

nvcc --version

ollama --version

# macOS brew update && brew upgrade ollama
# Windows（通过 PowerShell） winget upgrade ollama
# Linux（Ubuntu/Debian） curl -fsSL https://ollama.com/install.sh | sh

ollama list

NAME ID SIZE MODIFIED
llama3.2:3b 7f8a9c2d... 2.1 GB 2 hours ago

ollama show llama3.2:3b --modelfile

export OLLAMA_NUM_GPU=1
ollama run llama3.2:3b

$env:OLLAMA_NUM_GPU="1"
ollama run llama3.2:3b

Loading model...
Using GPU: NVIDIA GeForce RTX 4070 (compute capability 8.6)
Allocated 3.2 GiB VRAM for tensor operations

export OLLAMA_NUM_GPU=1

测试项	CPU 模式（Intel i7-12700K）	GPU 模式（RTX 4070）	提升幅度
首次加载耗时	8.2 秒	3.1 秒	2.6×
首 token 延迟	1.8 秒	0.35 秒	5.1×
平均生成速度	12.4 tokens/s	58.7 tokens/s	4.7×

请用不超过 100 字，描述春天里樱花盛开的景象。

export OLLAMA_GPU_LAYERS=32 # 将模型 32 层全部卸载到 GPU（3B 模型通常 32 层）
export OLLAMA_NUM_GPU=1
ollama run llama3.2:3b

Llama-3.2-3B 部署与 Ollama GPU 加速（CUDA/cuDNN）全流程

Llama-3.2-3B 步骤详解：Ollama 部署后启用 GPU 加速（CUDA/cuDNN）全流程

1. 为什么需要 GPU 加速？——从'能跑'到'跑得快'的关键跃迁

2. 前置检查：确认你的系统已具备 GPU 加速条件

2.1 验证 NVIDIA 显卡与驱动状态

更多推荐文章

相关免费在线工具

2.2 确认 CUDA Toolkit 是否已安装（非必须，但推荐）

2.3 检查 Ollama 版本是否支持 GPU（重点！）

3. 启用 GPU 加速：三行命令搞定核心配置

3.1 查看当前 Ollama 设备识别状态

3.2 设置 GPU 使用数量（关键命令）

3.3 永久生效配置（避免每次手动 export）

4. 实测对比：CPU vs GPU，速度差多少？

5. 常见问题排查：那些让你停在半路的'坑'

5.1 'CUDA error: out of memory' 错误

5.2 Web UI 中仍显示

更多推荐文章

相关免费在线工具

Llama-3.2-3B 部署与 Ollama GPU 加速（CUDA/cuDNN）全流程

Llama-3.2-3B 步骤详解：Ollama 部署后启用 GPU 加速（CUDA/cuDNN）全流程

1. 为什么需要 GPU 加速？——从'能跑'到'跑得快'的关键跃迁

2. 前置检查：确认你的系统已具备 GPU 加速条件

2.1 验证 NVIDIA 显卡与驱动状态

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 确认 CUDA Toolkit 是否已安装（非必须，但推荐）

2.3 检查 Ollama 版本是否支持 GPU（重点！）

3. 启用 GPU 加速：三行命令搞定核心配置

3.1 查看当前 Ollama 设备识别状态

3.2 设置 GPU 使用数量（关键命令）

3.3 永久生效配置（避免每次手动 export）

4. 实测对比：CPU vs GPU，速度差多少？

5. 常见问题排查：那些让你停在半路的'坑'

5.1 'CUDA error: out of memory' 错误

5.2 Web UI 中仍显示

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具