大模型云网基础架构与关键技术
生成式大模型训练需要超大规模低时延、高带宽、高可用的网络承载底座。对生成式大模型下高性能网络基础设施的技术发展路线和实现方案进行了研究,认为商用部署时需针对不同训练阶段的工作负载和流量模式,开展定制化网络架构设计和传输协议优化。流控/拥塞控制技术、负载均衡技术、自动化运维技术和面向广域远程直接内存访问(RDMA)的确定性网络传输技术是未来的重点研究方向。
1) 超大规模组网。在生成式大模型训练时,数据并行、流水线并行和张量并行同时存在,如图1所示。数据并行和流水线并行所需的“参数面大网”需要跨服务器通信,规模可达十万甚至百万级别的卡数,具有超大规模、高网络容量以及高接入带宽等特点。
而实现张量并行的“参数面小网”则通常局限于单个服务器范围内,具有规模小、容量超大以及高接入带宽等特点。
2) 超高带宽。机内通信中 GPU 间的 AllReduce 集合通信数据量可达百 GB 级别。机间 GPU 通信涉及多种并行模式,产生大量集合通信数据,机间GPU的高速互联对于网络的单端口带宽、节点间的可用链路数量及网络总带宽提出了 很 高 的 要 求。同 时,高 速 串 行 计 算 机 扩 展 总 线 标 准(PCIe) 的总线带宽限制了网卡性能的发挥,需适配更高带宽的总线技术以提升机间通信效率。
3) 超低时延。对于千亿参数模型来说,通信的端到端耗时占比仅为 20%,而对于万亿参数模型,占比增加至50%[1]。传统的流控算法和拥塞控制算法在面对生成式大模型训练网络时,会遇到拥塞头阻、拥塞扩散等挑战。此外,AI训练中流量的特征是“少流”和“大流”,使得传统的等价多路径 (ECMP) 流量均衡机制因ECMP哈希极化问题造成链路上流量不均而失效。
4) 自动化运维。当GPU集群规模达到一定量级后,保障集群系统的稳定高效运行就成为大模型工程化实践中极其重要的环节。与单点GPU故障相比,网络故障会影响数十个甚至更多GPU的连通性。高性能网络的自动化部署、一键式故障定位和业务无感自愈,将决定整个集群的计算稳定性。
传统的数据中心拓扑结构为3层的树形拓扑结构。树形结构原理简单,易于部署,但是当面对大模型训练中要求集群内服务器协作完成训练任务的场景时,该结构拓展能力显得不足,服务器间通信受限。
与传统树形网络拓扑中的逐层带宽收敛相比,Fat-Tree网络具有无阻塞和无带宽收敛的特性[3],目前被主流公有云厂商大规模应用于GPU密集型集群中,如图所示。单台服务器配备高性能的 400 Gbit/s NIC 网卡,K 台服务器为一组,通过架顶式 (ToR) 交换机互接。ToR交换机与聚合交换机相连形成一个Pod,实现跨机架的连接。Pod与主干交换机相连,确保中央处理器(CPU)集群中的服务器能够实现any-to-any通信。但是当网络大规模扩展时,受到核心交换机端口数限制,Fat-Tree 的横向拓展能力变差[5]。同时,为数以万计的GPU提供非阻塞连接的成本非常昂贵。
生成式大模型的发展确立了以 GPU 为中心的集群主导地位。现阶段,GPU间通信采用层次化网络承载:
1)机内网络:利用PCIe总线、NVLink、NVSwitch等技术,实现单台服务器内等多个GPU高带宽短距离互联,为每个GPU提供太比特级的无阻塞any-to-any带宽输入/输出,以便将短程通信流量驻留在高带宽域内。
2) 机间网络:利用网卡+交换机模式,实现多个高带宽域互连。服务器间使用远程直接内存访问(RDMA)将数据 (中间结果、梯度等) 从一个 GPU 内存传输到另一个GPU内存中(在不同服务器上)。
在生成式大模型训练中,模型参数和数据集分布在集群中的不同GPU上,开展并行训练。训练各阶段的工作负载特征(参数大小、数据集大小和模型架构)不同,流量模型也差异很大。为此,模型设计在优化网络拓扑和提高 GPU效率方面发挥着至关重要的作用。在实际网络部署中,需要根据各训练阶段的工作负载模型和流量特征,有针对性地开展网络拓扑设计优化和硬件设备 (如交换机) 定制。如Google使用了3D环面和光学主干交换机,Meta使用的具有超额订阅主干链路的轨道优化叶交换机。一些高性能计算(HPC)结构还使用蜻蜓拓扑来优化GPU之间的跳数。
目前,大模型集群多部署于同一个地域机房内。随着大模型训练的模型参数规模、数据规模和算力规模的快速发展,单个数据中心机房的硬件设施如电力、液冷、空调等硬件基础设施能力将趋于极限。大模型集群数据中心的超长距广域互联场景需求将逐步增加。但是,与数据中心内部大模型流量相比,广域网承载了多种不同类型的业务,流量特征复杂。虽然流控和拥塞控制等机制使得RDMA在数据中心内部实现了落地部署,但在复杂组网的广域环境下,RDMA远距离直连传输技术并不成熟,在现网中难于规模部署。运维人员需要根据不同的网络环境和流量模型进行RDMA参数设计和调优,这将会面临运维利用率、拥塞、时延等一系列挑战。
相比之下,面向广域RDMA的确定性网络技术 (Det‐Net) 较 为 成 熟,成 为 近 期 研 究 热 点。随 着 灵 活 以 太 网(FlexE)、切片分组网 (SPN)、时间敏感网络 (TSN)、优先级调度队列增强机制、网络演算等各类确定性技术的不断涌现,后续可通过延续优先级流控(PFC) 信号、长距离拥塞控制、网络负载均衡等技术实现RDMA的长距离扩展。
相关阅读:
全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)”和“存储系统基础知识全解(终极版)”pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价399元)。
扫描二维码关注公众号,点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。
微信扫码关注该文公众号作者