AI 大模型对网络的五大需求及技术应对方案
AI 大模型网络需求涵盖超大规模组网、超高带宽、超低时延、超高稳定性及自动化部署。应对方案包括采用大容量芯片与新型拓扑(Dragonfly/Torus)扩展规模;利用 CXL/NVLink 及集合通信优化带宽;通过 RDMA 与拥塞控制降低时延;基于 Telemetry 实现故障感知与自愈;借助 AI 控制器实现自动化运维。

AI 大模型网络需求涵盖超大规模组网、超高带宽、超低时延、超高稳定性及自动化部署。应对方案包括采用大容量芯片与新型拓扑(Dragonfly/Torus)扩展规模;利用 CXL/NVLink 及集合通信优化带宽;通过 RDMA 与拥塞控制降低时延;基于 Telemetry 实现故障感知与自愈;借助 AI 控制器实现自动化运维。

AI 大模型对网络的需求主要体现在五个方面,即超大规模组网、超高带宽、超低时延、超高稳定性及网络自动化部署。为了应对这五个方面的需求,本文对业内一些主要的应对技术、思路和方案进行了梳理,供读者进行系统优化时做参考。
使用大容量、高密度网络设备,51.2Tbps 容量芯片开始商用,可倍增设备 400G/800G 接口的密度,通过增加单个网元容量,减少所需的网络层次,扩展网络规模。
多级 CLOS 可以支持大规模,但是多跳情况下时延增加。研究使用新型网络拓扑,如 Dragonfly(网络直径短,具备低成本、端到端通信跳数少等优点,同等情况下是 Fat-tree 组网规模的几倍)、Torus(采用多轨网络架构,可以实现整网规模成倍增长,Torus 网络维度已从 3D 进化到了 6D)等网络架构或多种拓扑组合使用。
传统拥塞控制算法无法有效应对 Incast 流量模型的影响,传统的微突发流量应对策略导致低带宽利用率,拥塞控制算法能力不足限制集群规模扩展。 负载均衡算法改进,AI 训练的流量模型特征是'少流'和'大流'。解决思路有两个:一个是更细粒度的负载均衡算法(包级别),另一个是网络级负载均衡算法。
使用更细粒度的负载均衡算法,如 Packet-based、Flowlet、Cell-based 等负载均衡,几种方案各有优劣,如 Packet-base 存在乱序问题;Flowlet 是针对 TCP 特性设计的,不适合 RDMA 流量;Cell-based 时延高且需要硬件支持,不适合超算类高性能要求业务。
英伟达采用了 Packet-based 负载均衡技术,在其自适应路由解决方案中,为解决乱序的问题,使用 BlueField-3 DPU 通过 DDP(直接数据放置)处理无序数据,Spectrum 交换机通过带内遥测获取用于准确估计拥塞的排队信息及用于快速恢复的端口利用率指示,交换机通过拥塞最小的端口传输数据包,在路径之间距离不同的其他拓扑中,交换机倾向于通过最短路径发送流量,如果拥塞发生在最短路径上,则选择拥塞最小的备选路径,确保网络带宽得到有效利用,从而和网络设备形成端到端的完整解决方案。
中移动主导的全调度以太网 GSE,采用定长的 PKTC 进行报文转发及动态负载均衡,区别于 CELL 转发,该机制下以太网报文在逻辑上组成虚拟容器,并以该容器为最小单元在交换网络中传输,通过构建基于 PKTC 的 DGSQ 全调度机制、精细的反压机制和无感知自愈机制,实现微突发及故障场景下的精准控制。该技术主要通过网络层面解决,不需要网卡协同。
网络级负载均衡,也可以理解为感知路由的负载均衡,如华为 NSLB2.0 算法,可根据整网交换机节点流拥塞状态和全网拓扑,计算出最佳的流量分布,然后自动进行导流,拥有纵观全局的上帝视角,从而达到全网吞吐最优。
RDMA 网络应用常见的优先级调度和拥塞控制算法 PFC、ECN、DCQCN。 流量控制技术除基于优先级的 PFC 外,还可以使用基于信用的链路控制,在通过连接发送数据之前,发送端需要接收接受端通过虚拟回路发送的信用值,在不同时期,接收端发送信用额到发送端,说明接收端可用的缓冲区大小,当接收到信用额,发送端就按照信用额发送数据到接收端,每次发送端发送数据后,相应的信用额减少,这样可以有效减少失败重传造成网络阻塞。 华为的 NPCC(Network-based Proactive Congestion Control)是一种以网络设备为核心的主动拥塞控制技术,支持在网络设备上智能识别拥塞状态,主动发送 CNP 拥塞通知报文,准确控制服务器发送 RoCEv2 报文的速率,既可以确保拥塞时的及时降速,又可以避免拥塞已经缓解时的过度降速。 阿里:基于探测的路由控制,服务器通过改变源/目的端口向对等服务器发送多个探测数据包,每个探测数据包都需要记录它所经过的交换机,以便发送者可以知道映射的完整路由路径,最后为这两台服务器构建一个连接路径表。 端网协同,基于 Telemetry 网络遥测信息配合网卡和拥塞控制算法,达到精确控制流量、快速收敛、充分利用空闲带宽,最终达到避免拥塞,提高带宽利用率的效果。
RDMA 网卡需为每个连接维护协议状态,进而消耗掉大量的片上缓存,如何减少 QP 需求以及优化 QP 可支持数量成为关键。 网卡资源优化措施包括:针对大规模 QP 部署措施优化,每连接多路径的能力优化,从 RC 模式往连接数依赖更小的模式演进,从 go back N 重传往选择性重传演进,可编程能力优化。
节点内,传统 PCIe 通信带宽不足。 高带宽互联技术,CXL、英伟达 NVLink/NVSwitch/NVLink Switch、华为 HCCS、IBM Infinity Fabric。 增加单机带宽:高速网卡端口(低功耗的 400G/800G CPO、LDD 方案)、增加网卡数量。
负载均衡算法改进(参见上节,这里不再赘述)。 拥塞控制算法优化(参见上节,这里不再赘述)。
集合通信算法优化,减少网络通信量:如 Ring AllReduce、2D-Ring AllReduce、2D-Torus AllReduce、2D-Mesh AllReduce 等。 应用组播结合网络组播,交换机完成组播报文的复制分发,以网络层组播替代应用层组播,避免相同数据的重复发送,减少网络通信量。 在网计算,减少网络通信量。 英伟达 SHARP 在网计算,达成在交换机上的数据聚合(Aggregation)和归约(Reduction),有效拓宽网络带宽极限,英伟达的 Infiniband 交换机和 NVSwitch/NVLink Switch 都支持,上述交换机中都扩展有计算芯片。 华为 NetReduce 基于 RoCEv2,使用 FPGA 来实现了交换机的在网计算。 基于可编程交换机实现在网计算压缩数据流量,理论上是一个思路,但是目前没有看到实际落地方案。 另外,移动研究院也发布了《在网计算(NACA)技术白皮书》,相关技术和架构可供参考。
降低设备时延:采用 IB 网络或低时延的 RoCE 以太网交换机。 降低链路时延(传输的距离):尾纤连接足够短。 数据量一定的情况下,可以通过增加网络带宽,降低时延。 采用 RDMA 技术,缩短通信路径,降低端到端时延。 DPU 硬件全卸载:GPU Direct RDMA、GPU Direct Storage。
优化拥塞控制算法,降低拥塞导致的排队时延。 集合通信的流同步效应不仅要求低时延,且要求时延抖动尽可能低,可以采用逐包或更细粒度的负载均衡机制降低时延和时延抖动。 高性能的集合通信库降低时延,NCCL、OpenMPI、Gloo、ACCL、HCCL、TCCL 等。 集合通讯算法和网络拓扑协同,降低时延。
基于硬件的快速故障感知能力。 基于 Telemetry 的数据采集机制实现基于硬件的快速故障感知,最小数据采集精度可以达到毫秒级粒度,同时,除基础网络性能数据采集和感知外,覆盖队列吞吐、丢包、PFC、ECN、队列缓存等 RoCE 网络关键指标项。同时,在采集的性能指标基础之上,提供 PFC 风暴、死锁故障检测、高速光模块异常检测、队列一致性检测等上层故障、风险识别能力,主动评估、预测网络健康情况。
重新定义数据面的故障传递和收敛协议,仅通过数据面,就可以支持全网微秒级路径切。
在链路层面,通过充分挖掘网络多路径的资源价值,在最合适的节点以最快的速度实现流量转发路径的切换保护;在设备层面,通过利用节点级保护技术,实现流量的快速重路由;在网络层面,借助自动化和智能化的手段对常见的网络级故障开展根因分析和问题关联,通过快速响应预案的积累形成网络自动止血的能力,确保网络故障恢复指标在可预期的范围内。
即插即用式开局,端到端自动化部署配置能力。 自动流控调参和灵活的水线调节。 通过网络遥测 Telemetry、AI 的智能分析与控制(统一的控制器,即 AI 大脑),实现闭环控制,自动流控调参和灵活的水线调节。 端到端可视化,实现故障的快速定位。 通过呈现网络的拥塞状态、负载不均状态等,为自动化调度调优提供数据支持,可实现端到端可视化、自动化运维等,实现故障的快速定位和一键修复的能力。 变更自动化。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online