Llama-3.2-3B 步骤详解:Ollama 部署后启用 GPU 加速(CUDA/cuDNN)全流程
1. 为什么需要 GPU 加速?——从'能跑'到'跑得快'的关键跃迁
你可能已经用 Ollama 成功拉起了 Llama-3.2-3B,输入几句话就能看到回复,一切看似顺利。但当你连续提问、生成稍长文本,或者尝试多轮对话时,会明显感觉到响应变慢——几秒甚至十几秒的等待,让原本流畅的交互体验打了折扣。
这不是模型能力的问题,而是默认情况下 Ollama 在 CPU 上运行。Llama-3.2-3B 虽是 3B 参数量的轻量级模型,但其 Transformer 结构天然适合并行计算。一块中端消费级显卡(比如 RTX 3060 或更高),在 GPU 模式下推理速度可比 CPU 快 3~5 倍,显存占用更合理,还能释放出 CPU 资源去做其他事。
更重要的是,Ollama 官方明确支持 CUDA 加速,且无需手动编译模型或修改源码。整个过程不涉及复杂配置文件编辑,也不要求你成为 CUDA 专家——只要你的机器有 NVIDIA 显卡、驱动正常、CUDA 环境基础就绪,就能完成切换。本文将带你从零开始,一步步验证环境、启用加速、实测对比,并解决你最可能卡住的几个真实问题。
2. 前置检查:确认你的系统已具备 GPU 加速条件
在敲任何命令之前,请先花 2 分钟做三件事。跳过这步,后面 90% 的'加速失败'都源于此。
2.1 验证 NVIDIA 显卡与驱动状态
打开终端(Windows 用户请使用 PowerShell 或 WSL2 中的 bash),运行:
nvidia-smi
如果看到类似这样的输出(含 GPU 型号、驱动版本、运行中的进程),说明驱动已正确安装:
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03 Driver Version: 535.129.03 CUDA Version: 12.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce RTX 4070 Off | 00000000:01:00.0 On | N/A |
| % 41C 7W / 200W|| % |

