训练大模型,几乎没人用 CPU 硬扛。不是 CPU 不够聪明,而是 GPU 天生就是干这事的料。聊聊背后的几个硬核理由,然后再盘盘现在市面上能买到的卡和大概行情。
为什么是 GPU
并行压倒一切
CPU 核心少(8~64个),每个核擅长复杂逻辑,强调低延迟。GPU 有几千个核心,虽然单核性能不如 CPU,但齐上阵时,面对矩阵乘法这样的任务,GPU 的并行架构能把一个大活拆成无数小活同时干。神经网络训起来就是一堆矩阵和向量运算,SIMD/SIMT 那套东西正好用上。
带宽得跟上
数据要喂饱那些核心,否则核心再快也得等。高端 GPU(A100/H100)用 HBM2e 或 HBM3 显存,带宽能到 1~3 TB/s,而 CPU 挂的 DDR5 系统内存普遍只有几十 GB/s。带宽高一截,大 batch 训练才转得起来,训练收敛也更快。
专用硬件加速
光有通算核心还不够,NVIDIA 从 Volta 开始塞进了 Tensor Core,专门处理混合精度的矩阵乘加运算。FP16 或 BF16 下,计算速度比纯 FP32 快好几倍,精度损失却不大。到了 H100 这一代,又加了 Transformer Engine,对 Transformer 结构做了针对性优化,训练效率又往上拔了一截。
软件生态已经成型
PyTorch、TensorFlow 这些框架在 GPU 上优化得很深,底层有 cuDNN、cuBLAS 这些库直接调用,用不着自己造轮子。多卡训练时有 NCCL 通信库,数据并行、模型并行都能搞。换成 CPU 集群,光通信开销就够头疼的。
主流 GPU 选型
现阶段 NVIDIA 一家独大,主要就看几张卡,但又因为各种限制,能买到的不一定是想买的。
A100:稳扎稳打的老将
Ampere 架构,80GB HBM2e 显存。大模型预训练基本都拿它起步,单卡显存够大,多卡 NVLink 互联带宽 600GB/s,做模型并行通信不拖后腿。现在货源紧张,溢价高,但还是最成熟的方案。
H100:新旗舰,更难抢
Hopper 架构,80GB HBM3 显存,第三代 Tensor Core,Transformer Engine 加持。比 A100 快一截,NVLink 带宽拉到 900GB/s。追求极致性能就上它,但采购难度大,价格也离谱。
中国特供:A800 / H800
受出口管制影响,国内能拿到的往往是 A800 和 H800。核心计算能力和原版差不多,但 NVLink 带宽被砍——A800 降到 400GB/s。单机多卡训练时,通信成了短板,超大规模模型并行训练不太现实,不过微调或中等规模集群训练还顶得住。H800 后续政策还不确定,得盯紧动态。
V100:老当益壮
上一代 Volta 架构,32GB HBM2 显存。性能比 A100 差不少,但胜在价格相对友好,预算有限时还能应付入门训练或推理。
RTX 4090:消费级选手
24GB GDDR6X 显存,账面算力不低,但致命伤是没 ECC 显存,长时间训练容易出数据错误;没有 NVLink,多卡扩展靠 PCIe,效率低;不少企业级软件栈还不认消费级卡。个人玩玩、小规模微调或者推理部署还行,生产环境训大模型就别勉强了。
价格区间(仅供参考)
实际行情一天一个样,下面只是个大致范围,具体成交还得看渠道和时机。
| 型号 | 预估价格 (人民币) | 备注 |
|---|---|---|
| A100 (80G) | 10~20 万 | 溢价严重,货源少 |
| H100 | 25~35 万+ | 极难采购 |
| A800 | 10~20 万 | 市场流通较多 |
| H800 | 25~45 万 |


