AI 大模型对网络的需求主要体现在五个方面,即超大规模组网、超高带宽、超低时延、超高稳定性及网络自动化部署。为了应对这五个方面的需求,本文对业内一些主要的应对技术、思路和方案进行了梳理,供读者进行系统优化时做参考。
超大规模组网需求及应对
网络设备容量制约组网规模
使用大容量、高密度网络设备,51.2Tbps 容量芯片开始商用,可倍增设备 400G/800G 接口的密度,通过增加单个网元容量,减少所需的网络层次,扩展网络规模。
网络拓扑架构制约组网规模
多级 CLOS 可以支持大规模,但是多跳情况下时延增加。研究使用新型网络拓扑,如 Dragonfly(网络直径短,具备低成本、端到端通信跳数少等优点,同等情况下是 Fat-tree 组网规模的几倍)、Torus(采用多轨网络架构,可以实现整网规模成倍增长,Torus 网络维度已从 3D 进化到了 6D)等网络架构或多种拓扑组合使用。
网络性能需求制约组网规模
传统拥塞控制算法无法有效应对 Incast 流量模型的影响,传统的微突发流量应对策略导致低带宽利用率,拥塞控制算法能力不足限制集群规模扩展。 负载均衡算法改进,AI 训练的流量模型特征是'少流'和'大流'。解决思路有两个:一个是更细粒度的负载均衡算法(包级别),另一个是网络级负载均衡算法。
使用更细粒度的负载均衡算法,如 Packet-based、Flowlet、Cell-based 等负载均衡,几种方案各有优劣,如 Packet-base 存在乱序问题;Flowlet 是针对 TCP 特性设计的,不适合 RDMA 流量;Cell-based 时延高且需要硬件支持,不适合超算类高性能要求业务。
英伟达采用了 Packet-based 负载均衡技术,在其自适应路由解决方案中,为解决乱序的问题,使用 BlueField-3 DPU 通过 DDP(直接数据放置)处理无序数据,Spectrum 交换机通过带内遥测获取用于准确估计拥塞的排队信息及用于快速恢复的端口利用率指示,交换机通过拥塞最小的端口传输数据包,在路径之间距离不同的其他拓扑中,交换机倾向于通过最短路径发送流量,如果拥塞发生在最短路径上,则选择拥塞最小的备选路径,确保网络带宽得到有效利用,从而和网络设备形成端到端的完整解决方案。
中移动主导的全调度以太网 GSE,采用定长的 PKTC 进行报文转发及动态负载均衡,区别于 CELL 转发,该机制下以太网报文在逻辑上组成虚拟容器,并以该容器为最小单元在交换网络中传输,通过构建基于 PKTC 的 DGSQ 全调度机制、精细的反压机制和无感知自愈机制,实现微突发及故障场景下的精准控制。该技术主要通过网络层面解决,不需要网卡协同。
网络级负载均衡,也可以理解为感知路由的负载均衡,如华为 NSLB2.0 算法,可根据整网交换机节点流拥塞状态和全网拓扑,计算出最佳的流量分布,然后自动进行导流,拥有纵观全局的上帝视角,从而达到全网吞吐最优。
拥塞控制算法
RDMA 网络应用常见的优先级调度和拥塞控制算法 PFC、ECN、DCQCN。 流量控制技术除基于优先级的 PFC 外,还可以使用基于信用的链路控制,在通过连接发送数据之前,发送端需要接收接受端通过虚拟回路发送的信用值,在不同时期,接收端发送信用额到发送端,说明接收端可用的缓冲区大小,当接收到信用额,发送端就按照信用额发送数据到接收端,每次发送端发送数据后,相应的信用额减少,这样可以有效减少失败重传造成网络阻塞。 华为的 NPCC(Network-based Proactive Congestion Control)是一种以网络设备为核心的主动拥塞控制技术,支持在网络设备上智能识别拥塞状态,主动发送 CNP 拥塞通知报文,准确控制服务器发送 RoCEv2 报文的速率,既可以确保拥塞时的及时降速,又可以避免拥塞已经缓解时的过度降速。 阿里:基于探测的路由控制,服务器通过改变源/目的端口向对等服务器发送多个探测数据包,每个探测数据包都需要记录它所经过的交换机,以便发送者可以知道映射的完整路由路径,最后为这两台服务器构建一个连接路径表。 端网协同,基于 Telemetry 网络遥测信息配合网卡和拥塞控制算法,达到精确控制流量、快速收敛、充分利用空闲带宽,最终达到避免拥塞,提高带宽利用率的效果。
网卡资源不足限制组网规模
RDMA 网卡需为每个连接维护协议状态,进而消耗掉大量的片上缓存,如何减少 QP 需求以及优化 QP 可支持数量成为关键。 网卡资源优化措施包括:针对大规模 QP 部署措施优化,每连接多路径的能力优化,从 RC 模式往连接数依赖更小的模式演进,从 go back N 重传往选择性重传演进,可编程能力优化。
超高带宽需求及应对
实际带宽增加
节点内,传统 PCIe 通信带宽不足。 高带宽互联技术,CXL、英伟达 NVLink/NVSwitch/NVLink Switch、华为 HCCS、IBM Infinity Fabric。 增加单机带宽:高速网卡端口(低功耗的 400G/800G CPO、LDD 方案)、增加网卡数量。
有效带宽增加
负载均衡算法改进(参见上节,这里不再赘述)。 拥塞控制算法优化(参见上节,这里不再赘述)。
减少网络通信量
集合通信算法优化,减少网络通信量:如 Ring AllReduce、2D-Ring AllReduce、2D-Torus AllReduce、2D-Mesh AllReduce 等。 应用组播结合网络组播,交换机完成组播报文的复制分发,以网络层组播替代应用层组播,避免相同数据的重复发送,减少网络通信量。 在网计算,减少网络通信量。 英伟达 SHARP 在网计算,达成在交换机上的数据聚合(Aggregation)和归约(Reduction),有效拓宽网络带宽极限,英伟达的 Infiniband 交换机和 NVSwitch/NVLink Switch 都支持,上述交换机中都扩展有计算芯片。 华为 NetReduce 基于 RoCEv2,使用 FPGA 来实现了交换机的在网计算。 基于可编程交换机实现在网计算压缩数据流量,理论上是一个思路,但是目前没有看到实际落地方案。 另外,移动研究院也发布了《在网计算(NACA)技术白皮书》,相关技术和架构可供参考。


