最近研究了大模型以及 GPU 服务器配置等问题。结论是 7B-70B 大模型最合适个人本地部署。以下是详细配置建议。
一、基础硬件配置
CPU
建议 32-64 核(可降级,没有显存重要)。多核有助于数据预处理和并行推理任务。
内存
128GB - 512GB。内存一般在显存的两倍左右,显存不够,内存来凑。大模型加载时若显存不足,部分层会卸载到系统内存,速度会显著下降。
硬盘
4TB - 12 TB SSD。模型文件体积较大,且需要高速读写以支持快速加载。推荐 NVMe SSD。
操作系统
Debian 12 >= Ubuntu 24.04 LTS > Windows 11。Linux 环境对 CUDA 支持和稳定性通常优于 Windows。
二、GPU 核心配置
重点是 GPU。大模型时代,显存当然越大越好。但合理显存估算也很重要。
显存估算公式
以 x B 大模型 y bit 量化为例,推理的显存至少为 x * y / 8 GB。
- 7B 单精度(16bit): 至少需要 14G 显存。
- 7B 8bit 量化: 至少需要 8GB 显存。
- 70B 单精度: 需要至少 140G 显存。
- 70B 8bit 量化: 至少需要 70GB 显存。
- 405B 单精度: 需要至少 810G 显存。
- 405B 8bit 量化: 至少需要 405GB 显存。
- 405B 4bit 量化: 至少需要 200GB 显存。
这里不推荐尬上 4bit,精度损失严重,效果很不好。当然以上只是显存最小化估计,实际运行时,除了模型参数还需要考虑 Context(上下文窗口)等因素,实际显存占用只会更高。
微调显存需求
对于大模型微调,全量的话就要至少两倍的推理显存。当然可以采用 PEFT 如 Lora 进行微调,实际上是对模型参数的稀疏化,这样需要的显存会大幅度下降,代价是最后出来的效果可能不太好,需要权衡一下。
预算与显卡推荐(预算只含 GPU)
| 预算范围 | 推荐配置 |
|---|---|
| 1 万以内 | 1 * RTX 3090 24GB |
| 1-2 万 | 1 * RTX 4090 24GB |
| 3 万 | 1 * RTX A6000 48GB,或 2 * RTX 4090 24GB |
| 5 万 | 1 * RTX 6000 Ada,L40/L40s 48GB,或 2 * RTX A6000 48GB + NVLink |
| 10-15 万 | 2* L40/L40s 48GB,4 * RTX A6000 48GB + NVLink,2* RTX 6000 Ada 48GB |
| 20-30 万 | 2 * A100 80GB + NVLink,2* L40/L40s 48GB,4 * RTX 6000 Ada 48GB |
| 30-50 万 | 2 * H100 80GB + NVLink,4 * A100 80GB + NVLink |


