本文详细阐述了国内超大型智能算力中心的建设白皮书,涵盖体系架构、技术路线、应用场景及建设运营模式。文章指出智算中心应以算力、算法、服务、设施“四化”为核心,通过 AI 芯片、服务器、集群及大模型等关键技术支撑。在应用层面,重点分析了自动驾驶、机器人、元宇宙、智慧医疗、文娱创作及智慧科研等领域的算力需求。建设篇则探讨了新建与升级策略、功能定位分类及多样化的建设与运营模式,旨在推动 AI 产业化与产业 AI 化,实现算力资源的普惠与绿色可持续发展。
基于 AI 芯片的加速计算是当前 AI 计算的主流模式。AI 芯片通过和 AI 算法的协同设计来满足 AI 计算对算力的超高需求。当前主流的 AI 加速计算主要是采用 CPU 系统搭载 GPU、FPGA、ASIC 等异构加速芯片。
AI 计算加速芯片发端于 GPU 芯片,GPU 芯片中原本为图形计算设计的大量算术逻辑单元(ALU)可对以张量计算为主的深度学习计算提供很好的加速效果。随着 GPU 芯片在 AI 计算加速中的应用逐步深入,GPU 芯片本身也根据 AI 的计算特点,进行了针对性的创新设计,如张量计算单元、TF32/BF16 数值精度、Transformer 引擎(Transformer Engine)等。
近年来,国产 AI 加速芯片厂商持续发力,在该领域取得了快速进展,相关产品陆续发布,覆盖了 AI 推理和 AI 训练需求,其中既有基于通用 GPU 架构的芯片,也有基于 ASIC 架构的芯片,另外也出现了类脑架构芯片,总体上呈现出多元化的发展趋势。但是,当前国产 AI 芯片在产品性能和软件生态等方面与国际领先水平还存在差距,亟待进一步完善加强。总体而言,国产 AI 芯片正在努力从'可用'走向'好用'。
2.AI 服务器
AI 服务器是智算中心的算力机组。当前 AI 服务器主要采用 CPU+AI 加速芯片的异构架构,通过集成多颗 AI 加速芯片实现超高计算性能。
为满足各领域场景和复杂的 AI 模型的计算需求,AI 服务器对计算芯片间互联、扩展性有极高要求。AI 服务器内基于特定协议进行多加速器间高速互联通信已成为高端 AI 训练服务器的标准架构。
OAM 是国际开放计算组织 OCP 定义的一种开放的、用于跨 AI 加速器间的高速通信互联协议,卡间互联聚合带宽可高达 896GB/s。
浪潮信息基于开放 OAM 架构研发的 AI 服务器 NF5498,率先完成与国际和国内多家 AI 芯片产品的开发适配,并已在多个智算中心实现大规模落地部署。
3.AI 集群
大模型参数量和训练数据复杂性快速增长,对智算系统提出大规模算力扩展需求。 通过充分考虑大模型分布式训练对于计算、网络和存储的需求特点,可以设计构建高性能可扩展、高速互联、存算平衡的 AI 集群来满足尖端的 AI 计算需求。
AI 集群采用模块化方法构建,可以实现大规模的算力扩展。 AI 集群的基本算力单元是 AI 服务器。数十台 AI 服务器可以组成单个 POD 计算模组,POD 内部通过多块支持 RDMA 技术的高速网卡连接。在此基础上以 POD 计算模组为单位实现横向扩展,规模可多达数千节点以上,从而实现更高性能的 AI 集群。
AI 集群的构建主要采用低延迟、高带宽的网络互连。 为了满足大模型训练常用的数据并行、模型并行、流水线并行等混合并行策略的通信需求,需要为芯片间和节点间提供低延迟、高带宽的互联。另外,还要针对大模型的并行训练算法通信模式做出相应的组网拓扑上的优化,比如对于深度学习常用的全局梯度归约通信操作,可以使用全局环状网络设计,配置多块高速网卡,实现跨 AI 服务器节点的 AI 芯片间 RDMA 互联,消除混合并行算法的计算瓶颈。
AI 集群的构建需要配置面向 AI 优化的高速存储。 通过配置高性能、高扩展、多层级的智能存储,为各种数据访问需求提供优化性能。智能存储具备随需扩展功能,实现高 IOPS 处理能力,支持 RDMA 技术,同时实现高聚合带宽。
智算 OS 主要由三层架构构成,分别为基础设施层、平台服务层、业务系统层。基础设施层主要实现将异构算力、数据存储、框架模型等转化为有效的算力与服务资源,算力资源池能够聚合并进行标准化和细粒度切分,以满足上层不同类型智能应用对算力的多元化需求,并通过异构资源管理和调度技术,提升可同时支撑的智算业务规模。
平台服务层主要提供 AI 训练与推理服务、数据治理服务、运营运维服务等,并通过智算 OS 实现自动化、智能化,有效摆脱人力束缚,促进算力高效释放并转化为生产力。业务系统层是面向用户端的统一服务入口,向下整合各层级核心功能,为用户提供多元化、高质量的智算服务,满足生产中不同阶段、不同场景的智算需求。
智算 OS 以智算中心为载体,通过建设多元、开放的智算平台,融合国际、国内先进人工智能技术,形成标准化、模块化的模型、中间件及应用软件,以开放接口、模型库、算法包等方式向用户提供如行业大模型、自动驾驶、元宇宙、智慧科研等人工智能服务,促进人工智能技术成果的开放与共享,构建开放的智算生态。
6.软件生态
基于业界主流、开源、开放的软件生态建设智算中心,是智算中心能够满足前沿 AI 计算需求、提升 AI 创新和生产效率、丰富行业 AI 应用、促进 AI 产业快速发展的主要前提。深度学习的加速计算始于 GPU,构建于 GPU 之上的 CUDA 软件栈为深度学习的算法开发提供了极大的便利。CUDA 软件栈为深度学习的应用开发和计算加速提供了丰富的底层支撑,如张量和卷积计算加速、芯片互联通信加速、数据预处理加速、模型低精度推理加速等。 在此基础上,学术界和工业界已经构建庞大的开源、开放、共享的 AI 软件生态,有力促进和加速全球 AI 技术与应用的蓬勃发展。
深度学习框架是当前主要的人工智能算法开发工具。其中 TensorFlow 和 PyTorch 的使用较为广泛。TensorFlow 因其丰富的模型开发和应用部署组件而在工业界广泛应用,PyTorch 则由于其易用性和灵活性在前沿算法开发和学术创新研究领域取得了领先地位。国内的 AI 科技公司也在开发和推广深度学习框架。 其中百度开发的飞桨提供了兼具灵活和效率的开发机制,并联合开源社区打造了一系列覆盖主流产业应用需求的工业级模型,目前在国内已得到较多的采用。
这些软件库进一步简化了模型训练和应用开发的难度,已成为当前人工智能计算的重要软件底座。业界前沿的知名 AI 算法,如 ChatGPT、DALLE-2、StableDiffusion 等都是在这样的架构下实现的。随着国产 AI 计算产业的快速发展,各厂商也高度重视并投入软件生态建设,力求实现好用、易用的软件开发和应用生态。但总的来说,当前国产 AI 计算软件生态起步较晚、基础薄弱,还要持续不断加大投入,在各个层面加强建设完善。
以智算中心为代表的算力基础设施能够有效促进 AI 产业化和产业 AI 化,是支撑数字经济发展的重要基础底座。为了让 AI 真正地赋能到千行百业,并推动产业数字化转型发展,智算中心要具备对外提供高性价比、普惠、安全算力资源的能力,使 AI 算力像水、电一样成为城市的公共基础资源,供政府、企业、公众自主取用。算力基建化供给成为支撑产业转型升级以及创新发展的刚性需求和必然选择。
自 2012 年以来,人工智能训练任务所需求的算力每 3.43 个月就会翻倍,大大突破了传统以每 18 个月为周期实现芯片性能翻番的摩尔定律,这对人工智能计算架构的性能提出了更高的要求。AI 芯片是生产算力环节的关键组件,为 AI 训练和 AI 推理输出强大、高效、易用的计算力。目前,AI 芯片主要包括 GPU、FPGA、ASIC、类脑芯片四大类,其中类脑芯片仍在探索阶段,因此多元异构芯片成为提升算力的关键手段。主流的人工智能计算架构是以 CPU+AI 芯片为主体的异构架构,通过将 CPU 与多种计算单元(如 GPU、FPGA、ASIC 等)集成,充分融合了 CPU 等传统的通用计算单元和高性能专用计算单元的优点,可以同时兼顾 AI 模型的高效训练和精准推理能力。异构架构具有高性能、高效率、低功耗等显著优点,使 AI 芯片在未来人工智能算法不断迭代更新的情况下,依旧能保持较好的兼容性和可扩展性,在一定程度上延长了 AI 芯片的生命周期。
AI 落地面临开发成本、技术门槛高的难题,算法模型平均构建时间为 3 个月,同时算法还需要快速的迭代,再加上 AI 新算法、新理论层出不穷,行业用户的智慧转型存在着巨大的技术壁垒。智算中心应围绕政务服务、智慧城市、智能制造、自动驾驶、语言智能等重点领域,在 AI 平台内预置实例分割、目标检测、边缘检测、图像分类、人脸识别、视频感知、自动问答、机器翻译、舆情分析、情感分析、语音识别、协同过滤、交通路线规划等常用行业算法模型,并从硬、软件对行业算法做性能优化,从而帮助各行各业智慧应用加速落地,推动行业智能化转型加速。
2.面向模型即服务应用需求,构建大规模预训练 AI 模型
在产业 AI 化和数实融合的背景下,当前的行业做法是针对每一个场景都做一个模型,即'有 1 万个场景就有 1 万个模型'。然而随着以 BERT、GPT-3、DALL·E、源 1.0 等为代表的高泛化能力和高通用性的大模型的出现,一个模型可以覆盖众多场景。'预训练大模型 + 下游任务微调'的 AI 工程化模式已成为业内共识,层数、隐向量长度、前馈网络尺寸持续增长,参数规模迅速从亿级增长到百万亿级。
智算中心除了提供深度学习、强化学习等常见 AI 算法模型外,还应提供专业化基础支撑和开发部署服务能力,以支撑 AI 算法模型的便捷调用和部署。为了满足算法模型对大规模高质量海量数据集的需求,智算中心应搭载海量数据清洗系统,提供全流程自动化数据处理系统,实现智能高效的数据处理和过滤。为了满足 AI 算法模型高效训练和使用的需求,智算中心在基础支撑层面应部署分布式训练框架、高性能推理框架,在开发部署层面应提供数据管理、模型开发、模型训练、模型管理等关键模块,以模型 API 服务、领域模型、工具包、会话式开放框架、开发者社区等形式,形成强大的 AI 算法服务支撑能力。
制冷设备和 IT 设备是智算中心主要的能耗来源。液冷技术采用冷却液和工作流体对发热设备进行冷却,利用高比热容的液体代替空气,提升了制冷效率,降低制冷能耗。液冷技术是智算中心制冷的主要发展趋势。数据中心采用全栈布局液冷,冷板式液冷、热管式液冷、浸没式液冷等先进液冷技术,构建包含一次侧二次侧液冷循环、CDU 等的智算中心液冷整体解决方案,可以进一步降低能耗、降低 PUE,实现绿色化。液冷智算中心采用余热回收技术,可以为智算中心自身以及邻近区域供暖,进一步提升能源利用效率。此外,智算中心采用高压直流、集中供电等高效供配电系统、能效环境集成检测等高效辅助系统、智能监控运维系统等绿色管理系统可以进一步降低能耗。
在识别检测、语音交互、智能客服等智能应用在各行业领域得到了广泛使用,以自动驾驶为代表的高算力需求场景从实验环境逐步走向试点应用阶段,而以元宇宙、智慧科研(AI for Science)为代表的新兴场景也逐渐走进大众视野,并带来无限发展可能。
作为支撑人工智能应用的关键基础设施,智算中心汇聚数据、算力、算法等要素,通过生产算力、聚合算力、调度算力、释放算力等关键环节,实现'以数据输入,让智能输出',助力 AI 产业化和产业 AI 化,让智能计算真正惠及经济社会发展。
一、智算中心激发 AI 产业化创新活力
(一)自动驾驶
自动驾驶是汽车智能化和自动化的高级形态,作为 AI 技术备受关注的重要落脚点,被公认是汽车出行产业的未来方向之一。 自动驾驶场景的实现,需要通过感知融合、虚拟路测(模拟仿真)、高精地图、车路协同等核心技术将数字世界与实体路况进行深度融合,基于人工智能技术,让车辆能够像人类驾驶员一样准确地识别车道、行人、障碍物等驾驶环境中的关键信息,并及时对周围运动单元的潜在轨迹做出预判。
自动驾驶落地需要超大 AI 算力支持自动驾驶需要通过对车身多个传感器的数据进行感知和融合,并在此基础上对自动驾驶车辆的行为进行决策和控制,其中涉及大量 AI 算法、机器视觉与传感器数据整合分析、面向各类算力平台及传感器配置方案的适配能力等。
为了提升自动驾驶系统的感知和决策性能,当前通行的做法是在数据中心端基于海量的道路采集数据来进行感知模型训练和仿真测试。随着 AI 技术的发展,通过 AI 算法对多传感器的数据以及多模态的数据进行融合感知,已经成为了当前主流的发展趋势。另外自监督大模型的技术也在逐步地引入到自动驾驶场景中。
机器人与新一代信息技术的融合逐渐深入,机器人的感知、计算、执行能力都得到了大幅提升,处理实际问题的稳定性和可靠性也进一步提高,这背后离不开人工智能技术和强大算力的支撑。机器人需要和环境进行交互感知以及决策控制,和环境的交互感知不仅涉及到视觉、听觉等多个模态,也会涉及到不同模态的感知融合,这都需要 AI 算法作为底层支撑。为了实现相应的感知和决策算法,一般会在数据中心端构建真实世界数据采集→AI 模型构建→孪生世界的决策控制模型训练→真实世界验证测试的闭环,来逐步地提升机器人在真实世界的感知和决策能力。
元宇宙的协同创建、高精仿真、实时渲染、智能交互等环节都需要大量算力做支撑,想要真正迈入虚拟和现实融合的 3D 互联网时代,元宇宙对算力的需求将呈指数级增长,这远远超过了通用 CPU 的发展速度。传统以提升 CPU 时钟频率和内核数量来提高计算性能的方式遇到了瓶颈,形成了巨大的算力缺口。元宇宙从本质上看是对算力的重构,这部分算力缺口需要由智算中心来弥补,从而不断提升元宇宙场景的性能和能效。
智算中心助力虚拟数字人应对 AI 算力和算法挑战虚拟数字人相关的建模、驱动、渲染和感知交互均需要巨量的算力支撑。当前,虚拟数字人的建模以基于 3D 建模软件的手工建模 + 真人驱动为主。
随着 AIGC 等 AI 技术的应用,基于 AI 算法的自动建模将逐步替代手工建模,成为数字人建模的主要方式。与此同时,基于 AI 算法的数字人驱动也将逐步替代当前以'中之人'驱动为主的真人驱动方式。与此同时,视觉感知、语音识别和语音合成以及自然语言处理等多种 AI 算法在数字人中的应用,将推动数字人向'数智人'转变,也是虚拟数字人应用普及的关键。智算中心可以为虚拟数字人制作、感知交互提供强大的算力和算法支撑,加速虚拟数字人产业的商业化落地。
在元宇宙中,大规模、高度复杂的数字孪生空间的构建,以及现实世界和数字世界的实时交互,需要有强大且物理准确的高精度仿真算力和实时高清 3D 渲染算力作为支撑。随着 AI 技术的发展,基于 AI 算法的高精仿真逐步替代了传统基于数值求解算法的仿真系统,成为了数字孪生系统的核心底层支撑技术。智算中心可以为大规模数字孪生提供专业化的算力和应用支持,支撑数字孪生空间的实时创建、复杂模型的高效运行,以及逼真仿真环境的快速生成。
其中,PGC 和 UGC 都是以人为主体的创作模式,PGC 是由专业人士进行内容创作,成本较高且产能有限;UGC 降低了生产成本,满足了个性化需求,但存在不可控因素。从长期来看,数字内容生成的需求会愈发强烈,但是人脑处理信息的能力有限,当以人力为主的内容生产潜力逐渐消耗殆尽,以 AI 为主的内容生产模式将弥补数字世界内容供需的缺口。Gartner 数据显示,到 2023 年将有 20% 的内容由 AI 创作生成,预计到 2025 年生成式 AI 产生的数据将占所有数据的 10%。
利用 AIGC 技术可以生成多种模态的数字作品,如 AI 写作(文本)、AI 绘画(图像)、AI 作曲(音频)、AI 换脸(视频)等。同时,AIGC 技术也可以实现由文字生成图像、文字生成视频、图像/视频生成文字等跨模态创作,以及 Game AI 等各类综合型场景创作。AIGC 的出现使数字内容创作的生产效率和互动性得到了进一步提升。随着人工智能技术的不断升级以及算力、数据、算法等要素的持续迭代,未来 AIGC 技术将持续赋能各类文化创意、生产生活,为数字内容生产带来巨大变革。AI 大模型和开放平台为文娱创作提供技术支撑随着各类 AI 大模型及支持开发者创作的各类 AI 开源平台的陆续上线,用户可以获取涵盖开源模型 API、高质量中文数据集、模型训练代码、推理代码、应用代码、面向 AI 芯片的模型移植开发等内容的多场景服务。
大模型开放平台的出现极大地降低了文娱类 AI 应用的开发门槛,即使是几乎没有任何编程经验的文娱创作者,通过在平台上进行简单学习,也可以快速实现文娱类 AI 应用的开发。AI 大模型和 AI 开源平台作为智算中心算法基建化的重要构成,配合其强大的算力资源,将为创作者打造一片创作的乐土。
(三)智慧科研
AI 技术成为继计算机之后,科学家新的生产工具,并催生出了新的科研范式 AI for Science。科学家们用 AI 技术去学习科学原理,根据实验或者计算产生的数据对所求解的科学问题进行建模,从而使复杂问题得到有效解决。近年来,AI 也被证明能用来做规律发现,帮助人类从大量的复杂数据中,抽取一些人类观察不到的高维信息和高价值规律,不仅在应用科学领域,也能在自然科学领域发挥作用。AI for Science 不仅带来了科研效率的显著提升,还能降低科研成本,让更多人都能参与到科学研究中来。
从算力需求看,蛋白质结构分析、大规模分子模拟、数值计算相关应用主要涉及海量数据并行计算和大规模模拟实验,对算力和存力需求较高,属于计算密集型和数据密集型任务。智算中心所具备的算力服务能力极度契合 AI for Science 相关场景的算力需求,将成为支撑科研高质量、突破式发展的重要基础设施。
建设篇
从建设用途来看,智算中心除充分考虑其普惠性、开放性和集约性外,核心是以高质量、低成本、高性能的 AI 算力来支撑产业创新、城市发展中的各项智能服务。智算中心建设以总体规划、政企协同、需求牵引为宗旨,聚焦先进的技术和适配典型场景。同时,以智算中心建设和应用带动人工智能产业集群的汇聚,吸引数字化人才,激发人工智能产业的创新活力,推动人工智能产业和区域经济的可持续发展。
面向京津冀、长三角、粤港澳大湾区、成渝,以及贵州、内蒙古、甘肃、宁夏等全国一体化算力网络国家枢纽节点和数据中心集群,以及人工智能产业领域应用场景多元和科教资源丰富的优势地区,建设智算中心,以智算中心为牵引推动人工智能领域创新要素集聚,打造人工智能产业生态圈。新建智算中心作为新型公共算力基础设施和赋能平台,应支撑国家和区域内重要需求、科研创新和战略任务落地,为 AI 大模型训练、自动驾驶、生物工程、智能制造、数字孪生、空间地理等人工智能探索应用提供强大的智能算力服务,通过智能算力服务赋能产业升级,带动区域经济发展。
以'以旧换新、增减替代'为原则,对已建存量数据中心进行改造升级,加强 AI 和传统计算的融合。重点将一些冷数据、静态备份数据为主的存储类数据中心,替换为支撑数字经济、人工智能、区块链、工业互联网等前沿产业发展的智算中心。适度利用关闭及腾退的其他老旧落后的自用型数据中心、存储型数据中心、容灾备份中心资源和空间,升级改造为支撑低时延业务应用,服务智慧城市、车联网等重点应用场景落地。
加快传统数据中心节能低碳技术研发推广,提升资源能源利用效率。智算中心具备高功率密度属性,在制冷方面具有更高的要求。目前大多数 AI 服务器采用的仍是常规风冷模式,部分超过 30kW 的数据中心采用液冷模式。随着 AI 服务器功率密度的提升和使用场景的增多,需要在推动已建老旧小散数据中心向规模化数据中心集群或智能化计算中心转型升级基础上,逐步推广液冷技术的应用,促进全产业链绿色低碳有序发展,助力国民经济各行业整体实现'碳达峰、碳中和'的辐射带动作用。
(三)依据功能定位分类建设
1.产业合作平台
(1)建设条件
面向绝大多数无法承担自建智算中心和独立运营费用的企业,由政府主导,通过统一建设高性能、大规模的智算中心,并以租赁形式为有需求的企业提供算力支撑,省去企业投资建设和运营费用。通过平台开放接口的方式,鼓励行业领军企业将开源的算法、开放的数据资源及运营服务等创新要素输送给 IT 基础相对薄弱的企业,进一步降低人工智能使用门槛,助力各行业智慧化转型升级。