智算中心建设通过领先的体系架构设计,涵盖基础、支撑、功能和目标四大部分。技术演进聚焦 AI 芯片、服务器、集群及大模型,依托智算 OS 进行资源调度。建设路线强调算力基建化、算法基建化、服务智件化及设施绿色化。应用场景包括自动驾驶、机器人、智慧医疗、文娱创作及科研领域,旨在促进 AI 产业化与产业 AI 化,推动政府治理智能化。
基于 AI 芯片的加速计算是当前 AI 计算的主流模式。AI 芯片通过和 AI 算法的协同设计来满足 AI 计算对算力的超高需求。当前主流的 AI 加速计算主要是采用 CPU 系统搭载 GPU、FPGA、ASIC 等异构加速芯片。
AI 计算加速芯片发端于 GPU 芯片,GPU 芯片中原本为图形计算设计的大量算术逻辑单元(ALU)可对以张量计算为主的深度学习计算提供很好的加速效果。随着 GPU 芯片在 AI 计算加速中的应用逐步深入,GPU 芯片本身也根据 AI 的计算特点,进行了针对性的创新设计,如张量计算单元、TF32/BF16 数值精度、Transformer 引擎(Transformer Engine)等。
近年来,国产 AI 加速芯片厂商持续发力,在该领域取得了快速进展,相关产品陆续发布,覆盖了 AI 推理和 AI 训练需求,其中既有基于通用 GPU 架构的芯片,也有基于 ASIC 架构的芯片,另外也出现了类脑架构芯片,总体上呈现出多元化的发展趋势。但是,当前国产 AI 芯片在产品性能和软件生态等方面与国际领先水平还存在差距,亟待进一步完善加强。总体而言,国产 AI 芯片正在努力从'可用'走向'好用'。
2.AI 服务器
AI 服务器是智算中心的算力机组。当前 AI 服务器主要采用 CPU+AI 加速芯片的异构架构,通过集成多颗 AI 加速芯片实现超高计算性能。
为满足各领域场景和复杂的 AI 模型的计算需求,AI 服务器对计算芯片间互联、扩展性有极高要求。AI 服务器内基于特定协议进行多加速器间高速互联通信已成为高端 AI 训练服务器的标准架构。
OAM 是国际开放计算组织 OCP 定义的一种开放的、用于跨 AI 加速器间的高速通信互联协议,卡间互联聚合带宽可高达 896GB/s。
浪潮信息基于开放 OAM 架构研发的 AI 服务器 NF5498,率先完成与国际和国内多家 AI 芯片产品的开发适配,并已在多个智算中心实现大规模落地部署。
3.AI 集群
**大模型参数量和训练数据复杂性快速增长,对智算系统提出大规模算力扩展需求。**通过充分考虑大模型分布式训练对于计算、网络和存储的需求特点,可以设计构建高性能可扩展、高速互联、存算平衡的 AI 集群来满足尖端的 AI 计算需求。
**AI 集群采用模块化方法构建,可以实现大规模的算力扩展。**AI 集群的基本算力单元是 AI 服务器。数十台 AI 服务器可以组成单个 POD 计算模组,POD 内部通过多块支持 RDMA 技术的高速网卡连接。在此基础上以 POD 计算模组为单位实现横向扩展,规模可多达数千节点以上,从而实现更高性能的 AI 集群。
**AI 集群的构建主要采用低延迟、高带宽的网络互连。**为了满足大模型训练常用的数据并行、模型并行、流水线并行等混合并行策略的通信需求,需要为芯片间和节点间提供低延迟、高带宽的互联。另外,还要针对大模型的并行训练算法通信模式做出相应的组网拓扑上的优化,比如对于深度学习常用的全局梯度归约通信操作,可以使用全局环状网络设计,配置多块高速网卡,实现跨 AI 服务器节点的 AI 芯片间 RDMA 互联,消除混合并行算法的计算瓶颈。
智算 OS 主要由三层架构构成,分别为基础设施层、平台服务层、业务系统层。基础设施层主要实现将异构算力、数据存储、框架模型等转化为有效的算力与服务资源,算力资源池能够聚合并进行标准化和细粒度切分,以满足上层不同类型智能应用对算力的多元化需求,并通过异构资源管理和调度技术,提升可同时支撑的智算业务规模。
智算 OS 以智算中心为载体,通过建设多元、开放的智算平台,融合国际、国内先进人工智能技术,形成标准化、模块化的模型、中间件及应用软件,以开放接口、模型库、算法包等方式向用户提供如行业大模型、自动驾驶、元宇宙、智慧科研等人工智能服务,促进人工智能技术成果的开放与共享,构建开放的智算生态。
**2.聚焦异构加速技术,提升高性能人工智能计算能力自 2012 年以来,人工智能训练任务所需求的算力每 3.43 个月就会翻倍,大大突破了传统以每 18 个月为周期实现芯片性能翻番的摩尔定律,这对人工智能计算架构的性能提出了更高的要求。**AI 芯片是生产算力环节的关键组件,为 AI 训练和 AI 推理输出强大、高效、易用的计算力。目前,AI 芯片主要包括 GPU、FPGA、ASIC、类脑芯片四大类,其中类脑芯片仍在探索阶段,因此多元异构芯片成为提升算力的关键手段。主流的人工智能计算架构是以 CPU+AI 芯片为主体的异构架构,通过将 CPU 与多种计算单元(如 GPU、FPGA、ASIC 等)集成,充分融合了 CPU 等传统的通用计算单元和高性能专用计算单元的优点,可以同时兼顾 AI 模型的高效训练和精准推理能力。异构架构具有高性能、高效率、低功耗等显著优点,使 AI 芯片在未来人工智能算法不断迭代更新的情况下,依旧能保持较好的兼容性和可扩展性,在一定程度上延长了 AI 芯片的生命周期。
**1.面向千行百业发展需求,提供多类型预置行业算法 AI 落地面临开发成本、技术门槛高的难题,算法模型平均构建时间为 3 个月,同时算法还需要快速的迭代,再加上 AI 新算法、新理论层出不穷,行业用户的智慧转型存在着巨大的技术壁垒。**智算中心应围绕政务服务、智慧城市、智能制造、自动驾驶、语言智能等重点领域,在 AI 平台内预置实例分割、目标检测、边缘检测、图像分类、人脸识别、视频感知、自动问答、机器翻译、舆情分析、情感分析、语音识别、协同过滤、交通路线规划等常用行业算法模型,并从硬、软件对行业算法做性能优化,从而帮助各行各业智慧应用加速落地,推动行业智能化转型加速。
**2.面向模型即服务应用需求,构建大规模预训练 AI 模型在产业 AI 化和数实融合的背景下,当前的行业做法是针对每一个场景都做一个模型,即'有 1 万个场景就有 1 万个模型'。**然而随着以 BERT、GPT-3、DALL·E、源 1.0 等为代表的高泛化能力和高通用性的大模型的出现,一个模型可以覆盖众多场景。'预训练大模型 + 下游任务微调'的 AI 工程化模式已成为业内共识,层数、隐向量长度、前馈网络尺寸持续增长,参数规模迅速从亿级增长到百万亿级。
**3.面向可持续化发展需求,推进 AI 模型不断演进升级从感知机到深度神经网络,从全连接网络到模型剪枝、知识蒸馏、注意力机制,从有监督学习、无监督学习到强化学习、自监督学习,人工智能理论算法模型在持续深化发展中。**当前,人工智能算法正从单模态、有监督学习向多模态、自监督学习演进。自监督学习无需标注数据,可以直接从无标签数据中自行学习,极大降低了人工标注成本。
**4.面向算法高效调用需求,提供专业化开发部署支撑智算中心除了提供深度学习、强化学习等常见 A I 算法模型外,还应提供专业化基础支撑和开发部署服务能力,以支撑 AI 算法模型的便捷调用和部署。**为了满足算法模型对大规模高质量海量数据集的需求,智算中心应搭载海量数据清洗系统,提供全流程自动化数据处理系统,实现智能高效的数据处理和过滤。为了满足 AI 算法模型高效训练和使用的需求,智算中心在基础支撑层面应部署分布式训练框架、高性能推理框架,在开发部署层面应提供数据管理、模型开发、模型训练、模型管理等关键模块,以模型 API 服务、领域模型、工具包、会话式开放框架、开发者社区等形式,形成强大的 AI 算法服务支撑能力。
**1.采用先进节能技术,全面降低智算中心能耗制冷设备和 IT 设备是智算中心主要的能耗来源。**液冷技术采用冷却液和工作流体对发热设备进行冷却,利用高比热容的液体代替空气,提升了制冷效率,降低制冷能耗。液冷技术是智算中心制冷的主要发展趋势。数据中心采用全栈布局液冷,冷板式液冷、热管式液冷、浸没式液冷等先进液冷技术,构建包含一次侧二次侧液冷循环、CDU 等的智算中心液冷整体解决方案,可以进一步降低能耗、降低 PUE,实现绿色化。液冷智算中心采用余热回收技术,可以为智算中心自身以及邻近区域供暖,进一步提升能源利用效率。此外,智算中心采用高压直流、集中供电等高效供配电系统、能效环境集成检测等高效辅助系统、智能监控运维系统等绿色管理系统可以进一步降低能耗。
**自动驾驶是汽车智能化和自动化的高级形态,作为 AI 技术备受关注的重要落脚点,被公认是汽车出行产业的未来方向之一。**自动驾驶场景的实现,需要通过感知融合、虚拟路测(模拟仿真)、高精地图、车路协同等核心技术将数字世界与实体路况进行深度融合,基于人工智能技术,让车辆能够像人类驾驶员一样准确地识别车道、行人、障碍物等驾驶环境中的关键信息,并及时对周围运动单元的潜在轨迹做出预判。
自动驾驶落地需要超大 AI 算力支持自动驾驶需要通过对车身多个传感器的数据进行感知和融合,并在此基础上对自动驾驶车辆的行为进行决策和控制,其中涉及大量 AI 算法、机器视觉与传感器数据整合分析、面向各类算力平台及传感器配置方案的适配能力等。
其中,PGC 和 UGC 都是以人为主体的创作模式,PGC 是由专业人士进行内容创作,成本较高且产能有限;UGC 降低了生产成本,满足了个性化需求,但存在不可控因素。从长期来看,数字内容生成的需求会愈发强烈,但是人脑处理信息的能力有限,当以人力为主的内容生产潜力逐渐消耗殆尽,以 AI 为主的内容生产模式将弥补数字世界内容供需的缺口。Gartner 数据显示,到 2023 年将有 20% 的内容由 AI 创作生成,预计到 2025 年生成式 AI 产生的数据将占所有数据的 10%。
(三)智慧科研
AI 技术成为继计算机之后,科学家新的生产工具,并催生出了新的科研范式 AI for Science。科学家们用 AI 技术去学习科学原理,根据实验或者计算产生的数据对所求解的科学问题进行建模,从而使复杂问题得到有效解决。近年来,AI 也被证明能用来做规律发现,帮助人类从大量的复杂数据中,抽取一些人类观察不到的高维信息和高价值规律,不仅在应用科学领域,也能在自然科学领域发挥作用。AI for Science 不仅带来了科研效率的显著提升,还能降低科研成本,让更多人都能参与到科学研究中来。