大模型训练选 GPU 的理由：主流型号、性能与价格对比

训练大模型，几乎没人用 CPU 硬扛。不是 CPU 不够聪明，而是 GPU 天生就是干这事的料。聊聊背后的几个硬核理由，然后再盘盘现在市面上能买到的卡和大概行情。

为什么是 GPU

并行压倒一切

CPU 核心少（8~64个），每个核擅长复杂逻辑，强调低延迟。GPU 有几千个核心，虽然单核性能不如 CPU，但齐上阵时，面对矩阵乘法这样的任务，GPU 的并行架构能把一个大活拆成无数小活同时干。神经网络训起来就是一堆矩阵和向量运算，SIMD/SIMT 那套东西正好用上。

带宽得跟上

数据要喂饱那些核心，否则核心再快也得等。高端 GPU（A100/H100）用 HBM2e 或 HBM3 显存，带宽能到 1~3 TB/s，而 CPU 挂的 DDR5 系统内存普遍只有几十 GB/s。带宽高一截，大 batch 训练才转得起来，训练收敛也更快。

专用硬件加速

光有通算核心还不够，NVIDIA 从 Volta 开始塞进了 Tensor Core，专门处理混合精度的矩阵乘加运算。FP16 或 BF16 下，计算速度比纯 FP32 快好几倍，精度损失却不大。到了 H100 这一代，又加了 Transformer Engine，对 Transformer 结构做了针对性优化，训练效率又往上拔了一截。

软件生态已经成型

PyTorch、TensorFlow 这些框架在 GPU 上优化得很深，底层有 cuDNN、cuBLAS 这些库直接调用，用不着自己造轮子。多卡训练时有 NCCL 通信库，数据并行、模型并行都能搞。换成 CPU 集群，光通信开销就够头疼的。

主流 GPU 选型

现阶段 NVIDIA 一家独大，主要就看几张卡，但又因为各种限制，能买到的不一定是想买的。

A100：稳扎稳打的老将

Ampere 架构，80GB HBM2e 显存。大模型预训练基本都拿它起步，单卡显存够大，多卡 NVLink 互联带宽 600GB/s，做模型并行通信不拖后腿。现在货源紧张，溢价高，但还是最成熟的方案。

H100：新旗舰，更难抢

Hopper 架构，80GB HBM3 显存，第三代 Tensor Core，Transformer Engine 加持。比 A100 快一截，NVLink 带宽拉到 900GB/s。追求极致性能就上它，但采购难度大，价格也离谱。

中国特供：A800 / H800

受出口管制影响，国内能拿到的往往是 A800 和 H800。核心计算能力和原版差不多，但 NVLink 带宽被砍——A800 降到 400GB/s。单机多卡训练时，通信成了短板，超大规模模型并行训练不太现实，不过微调或中等规模集群训练还顶得住。H800 后续政策还不确定，得盯紧动态。

V100：老当益壮

上一代 Volta 架构，32GB HBM2 显存。性能比 A100 差不少，但胜在价格相对友好，预算有限时还能应付入门训练或推理。

RTX 4090：消费级选手

24GB GDDR6X 显存，账面算力不低，但致命伤是没 ECC 显存，长时间训练容易出数据错误；没有 NVLink，多卡扩展靠 PCIe，效率低；不少企业级软件栈还不认消费级卡。个人玩玩、小规模微调或者推理部署还行，生产环境训大模型就别勉强了。

价格区间（仅供参考）

实际行情一天一个样，下面只是个大致范围，具体成交还得看渠道和时机。

型号	预估价格 (人民币)	备注
A100 (80G)	10~20 万	溢价严重，货源少
H100	25~35 万+	极难采购
A800	10~20 万	市场流通较多
H800	25~45 万

大模型训练选 GPU 的理由：主流型号、性能与价格对比

为什么是 GPU

主流 GPU 选型

A100：稳扎稳打的老将

H100：新旗舰，更难抢

中国特供：A800 / H800

V100：老当益壮

RTX 4090：消费级选手

价格区间（仅供参考）

更多推荐文章

相关免费在线工具

最后几句

更多推荐文章

相关免费在线工具

大模型训练选 GPU 的理由：主流型号、性能与价格对比

为什么是 GPU

主流 GPU 选型

A100：稳扎稳打的老将

H100：新旗舰，更难抢

中国特供：A800 / H800

V100：老当益壮

RTX 4090：消费级选手

价格区间（仅供参考）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

最后几句

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具