DeepSeek + Ollama + Open-WebUI 本地化部署显存需求与配置指南
在本地部署大语言模型时,显存(VRAM)容量是决定能否运行以及运行效果的关键因素。本文将详细分析 DeepSeek R1 系列模型在不同量化精度下的显存占用情况,并提供基于 Ollama 和 Open-WebUI 的完整本地化部署方案。
一、显存需求计算逻辑
显存占用的大小不仅与模型的参数数量有关,还与是否量化、精度(如 FP4、FP8、FP16、FP32)、User Prompt、Max Tokens、Context Length 等因素相关。
1. 理论计算公式
当模型精度为 FP4 时,显存需求的估算公式如下:
显存需求 = 参数数量 × 0.5 byte (4-bit) / 1024 / 1024 / 1024
示例:
- 7B 模型:7,000,000,000 (参数) × 0.5 byte ≈ 3.26 GB
- 70B 模型:70,000,000,000 (参数) × 0.5 byte ≈ 32.7 GB
2. 实际生产建议
上述仅为理论值。在实际生产环境中,考虑到上下文窗口(Context Window)和推理过程中的临时缓存,建议将理论值乘以 2 到 3 来预估显存需求。
二、DeepSeek R1 模型显存参考表
下表列出了常见 DeepSeek R1 模型及其量化版本(q4_K_M)的显存需求参考:
| 模型名称 | 参数数量 | 模型大小 | 显存需求(大约) |
|---|---|---|---|
| deepseek-r1:1.5b | 1.5B | 1.1 GB | ~2 GB |
| deepseek-r1:7b | 7B | 4.7 GB | ~5 GB |
| deepseek-r1:8b | 8B | 4.9 GB | ~6 GB |
| deepseek-r1:14b | 14B | 9.0 GB | ~10 GB |
| deepseek-r1:32b | 32B |


