国内超大型智能算力中心建设白皮书 2024：智算中心算力规划

智算中心建设通过领先的体系架构设计，涵盖基础、支撑、功能和目标四大部分。技术演进聚焦 AI 芯片、服务器、集群及大模型，依托智算 OS 进行资源调度。建设路线强调算力基建化、算法基建化、服务智件化及设施绿色化。应用场景包括自动驾驶、机器人、智慧医疗、文娱创作及科研领域，旨在促进 AI 产业化与产业 AI 化，推动政府治理智能化。

imJackJia发布于 2025/2/7更新于 2026/6/116 浏览

智算中心建设通过领先的体系架构设计，以算力基建化为主体、以算法基建化为引领、以服务智件化为依托，以设施绿色化为支撑，从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。

一、体系架构

（一）总体架构

图 8 智算中心总体架构

智能算力中心建设白皮书，重点围绕基础、支撑、功能和目标四大部分，创新性地提出了智算中心总体架构。

其中，基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构；支撑部分围绕智算中心算力生产、聚合、调度、释放的作业逻辑展开；功能部分提供算力生产供应、数据开放共享、智能生态建设和产业创新聚集四大平台，以及数据、算力和算法三大服务；整体目标是促进 AI 产业化、产业 AI 化及政府治理智能化。

（二）技术演进

智算中心的发展基于最新人工智能理论和领先的人工智能计算架构，算力技术与算法模型是其中的关键核心技术，算力技术以 AI 芯片、AI 服务器、AI 集群为载体，而当前的算法模型发展趋势以 AI 大模型为代表。

在此基础上，通过智算中心操作系统作为智算中心的'神经中枢'对算力资源池进行高效管理和智能调度，使智算中心更好地对外提供算力、数据和算法等服务，支撑各类智慧应用场景落地。而软件生态则是智算中心'好用、用好'的关键支撑。

1．AI 芯片

基于 AI 芯片的加速计算是当前 AI 计算的主流模式。AI 芯片通过和 AI 算法的协同设计来满足 AI 计算对算力的超高需求。当前主流的 AI 加速计算主要是采用 CPU 系统搭载 GPU、FPGA、ASIC 等异构加速芯片。

AI 计算加速芯片发端于 GPU 芯片，GPU 芯片中原本为图形计算设计的大量算术逻辑单元（ALU）可对以张量计算为主的深度学习计算提供很好的加速效果。随着 GPU 芯片在 AI 计算加速中的应用逐步深入，GPU 芯片本身也根据 AI 的计算特点，进行了针对性的创新设计，如张量计算单元、TF32/BF16 数值精度、Transformer 引擎（Transformer Engine）等。

近年来，国产 AI 加速芯片厂商持续发力，在该领域取得了快速进展，相关产品陆续发布，覆盖了 AI 推理和 AI 训练需求，其中既有基于通用 GPU 架构的芯片，也有基于 ASIC 架构的芯片，另外也出现了类脑架构芯片，总体上呈现出多元化的发展趋势。但是，当前国产 AI 芯片在产品性能和软件生态等方面与国际领先水平还存在差距，亟待进一步完善加强。总体而言，国产 AI 芯片正在努力从'可用'走向'好用'。

2．AI 服务器

AI 服务器是智算中心的算力机组。当前 AI 服务器主要采用 CPU+AI 加速芯片的异构架构，通过集成多颗 AI 加速芯片实现超高计算性能。

为满足各领域场景和复杂的 AI 模型的计算需求，AI 服务器对计算芯片间互联、扩展性有极高要求。AI 服务器内基于特定协议进行多加速器间高速互联通信已成为高端 AI 训练服务器的标准架构。

目前业界以 NVLink 和 OAM 两种高速互联架构为主，其中 NVLink 是 NVIDIA 开发并推出的一种私有通信协议，其采用点对点结构、串列传输，可以达到数百 GB/s 的 P2P 互联带宽，极大地提升了模型并行训练的效率和性能。

OAM 是国际开放计算组织 OCP 定义的一种开放的、用于跨 AI 加速器间的高速通信互联协议，卡间互联聚合带宽可高达 896GB/s。

浪潮信息基于开放 OAM 架构研发的 AI 服务器 NF5498，率先完成与国际和国内多家 AI 芯片产品的开发适配，并已在多个智算中心实现大规模落地部署。

3．AI 集群

**大模型参数量和训练数据复杂性快速增长，对智算系统提出大规模算力扩展需求。**通过充分考虑大模型分布式训练对于计算、网络和存储的需求特点，可以设计构建高性能可扩展、高速互联、存算平衡的 AI 集群来满足尖端的 AI 计算需求。

**AI 集群采用模块化方法构建，可以实现大规模的算力扩展。**AI 集群的基本算力单元是 AI 服务器。数十台 AI 服务器可以组成单个 POD 计算模组，POD 内部通过多块支持 RDMA 技术的高速网卡连接。在此基础上以 POD 计算模组为单位实现横向扩展，规模可多达数千节点以上，从而实现更高性能的 AI 集群。

**AI 集群的构建主要采用低延迟、高带宽的网络互连。**为了满足大模型训练常用的数据并行、模型并行、流水线并行等混合并行策略的通信需求，需要为芯片间和节点间提供低延迟、高带宽的互联。另外，还要针对大模型的并行训练算法通信模式做出相应的组网拓扑上的优化，比如对于深度学习常用的全局梯度归约通信操作，可以使用全局环状网络设计，配置多块高速网卡，实现跨 AI 服务器节点的 AI 芯片间 RDMA 互联，消除混合并行算法的计算瓶颈。