Bendi新闻
>
超算网络中的主流拓扑架构

超算网络中的主流拓扑架构

7月前

高性能计算场景的流量关注静态时延的同时需要支持超大规模组网。然而传统的 CLOS 架构作为主流网络架构,主要关注通用性,牺牲了时延和性价比。业界针对该问题开展了多样的架构研究和新拓扑的设计,Fat-TreeDragonflyTorus是几种常见的网络拓扑,Fat-Tree架构实现无阻塞转发,Dragonfly架构网络直径小,Torus 具有较高的扩展性和性价比。
相关阅读:


Fat-Tree胖树架构

传统的树形网络拓扑中,带宽是逐层收敛的,树根处的网络带宽要远小于各个叶子处所有带宽的总和。而Fat-Tree则更像是真实的树,越到树根,枝干越粗,即:从叶子到树根,网络带宽不收敛,这是Fat-Tree能够支撑无阻塞网络的基础。Fat-Tree是使用最广泛的拓扑之一,它是各种应用程序的一个很好的选择,因为它提供低延迟并支持各种吞吐量选项——从非阻塞连接到超额订阅,这种拓扑类型最大限度地提高了各种流量模式的数据吞吐量。

Fat-Tree架构采用1:1无收敛设计,Fat-Tree架构中交换机上联端口与下联端口带宽、数量保持一致,同时交换机要采用无阻塞转发的数据中心级交换机。Fat-Tree架构可以通过扩展网络层次提升接入的GPU节点数量。

Fat-Tree架构的本质是无带宽收敛,因此,云数据中心的Spine-leaf组网在无收敛的情况下,也可以认为是遵从了Fat-Tree架构理念。

如果交换机的端口数量为n,则:两层Fat-Tree架构能够接入n²/2GPU卡,以40端口的InfiniBand交换机为例,能够接入的GPU数量最多可达800个。三层Fat-Tree架构能够接入nn/2*(n/2)GPU卡,以40端口的InfiniBand交换机为例,能够接入的GPU数量最多可达16000个。

但是,Fat-Tree架构也存在明显的缺陷:

  • 网络中交换机与服务器的比值较大,需要大量的交换机和链路,因此,在大规模情况下成本相对较高。构建Fat-Tree需要的交换机数量为5M/n(其中,M是服务器的数量,n是交换机的端口数量),当交换机的端口数量n较小时,连接Fat-Tree需要的交换机数量庞大,从而增加了布线和配置的复杂性;

  • 拓扑结构的特点决定了网络不能很好的支持One-to-AllAll-to-All网络通信模式,不利于部署 MapReduceDryad等高性能分布式应用;

  • 扩展规模在理论上受限于核心层交换机的端口数目。

Fat-Tree架构的本质是CLOS架构网络,主要关注通用性和无收敛,牺牲了时延和性价比。在构建大规模集群网络时需要增加网络层数,需要更多的互联光纤和交换机,带来成本的增加,同时随着集群规模增大,网络跳数增加,导致通信时延增加,也可能会无法满足业务低时延需求。


Dragonfly架构

Dragonfly是当前应用最广泛的直连拓扑网络架构,它由John Kim等人在2008年的论文Technology-Driven, Highly-Scalable Dragonfly Topology中提出,它的特点是网络直径小、成本较低,已经在高性能计算网络中被广泛应用,也适用于多元化算力的数据中心网络。

Dragonfly网络如下图所示:

Dragonfly的拓扑结构分为三层:Switch层、Group层、System层。

  • Switch层:包括一个交换机及其相连的P个计算节点;

  • Group层:包含aSwitch层,这aSwitch层的a个交换机是全连接(All-to-all)的,换言之,每个交换机都有a-1条链路连接分别连接到其他的a-1台交换机;

  • System层:包含gGroup层,这gGroup层也是全连接的。

对于单个Switch交换机,它有p个端口连接到了计算节点,a-1个端口连接到Group内其他交换机,h个端口连接到其他Group的交换机。因此,我们可以计算得到网络中的如下属性:

  • 每个交换机的端口数为k=p+(a-1)+h

  • Group的数量为g=ah+1

  • 网络中一共有N=ap(ah+1) 个计算节点

  • 如果我们把一个Group内的交换机都合成一个,将它们视为一个交换机,那么这个交换机的端口数为k‘=a(p+h)。

不难发现,在确定了 pahg四个参数之后,我们就可以确定一个Dragonfly的拓扑,因此,一个Dragonfly的拓扑可以用dfly(p,a,h,g) 来表示,一种推荐的较为平衡的配置是方法是:a=2p=2h

Dragonfly的路由算法主要有以下几种

  • 最小路由算法(Minimal Routing):由于拓扑的性质,Minimal Routing中最多只会有1Global Link2Local Link,也就是说最多3跳即可到达。在任由两个Group之间只有一条直连连接时(即g=ah+1时),最短路径只有一条。

  • 非最短路径的路由算法(Non-Minimal Routing):有的地方叫Valiant algorithm,简写为VAL,还有的地方叫Valiant Load-balanced routing,简写为VLB。随机选择一个Group,先发到这个Group然后再发到目的地。由于拓扑的性质,VAL最多会经过2Global Link3Local Link,最多5跳即可到达。

  • 自适应路由Adaptive Routing):当一个数据包到达交换机时,交换机根据网络负载信息在最短路径路由和非最短路径路由路径之间进行动态选路,优先采用最短路径转发,当最短路径拥塞时,通过非最短路径转发。因为要获取到全局网络状态信息比较困难,除了UGAL(全局自适应负载均衡路由),还提出了一系列变种自适应路由算法,如UGAL-LUGAL-G等。

上述几种路由,由于自适应路由能够根据网络链路状态动态调整流量转发路径,因此会有更好的性能表现。

Dragonfly为各种应用程序(或通信模式)提供了良好的性能,与其他拓扑相比,它通过直连模式,缩短网络路径,减少中间节点数量。64端口交换机支持组网规模27万节点,端到端交换机转发跳数减至3跳。

Dragonfly拓扑在性能和性价比方面有显著的优势。然而,这种优势的实现需要依赖于有效的拥塞控制和自适应路由策略。Dragonfly网络在扩展性方面存在问题,每次需要增加网络容量时,都必须对Dragonfly网络进行重新布线,这增加了网络的复杂性和管理难度。


Torus架构

随着模型参数的增加和训练数据的增加,单台机器算力无法满足,存储无法满足,所以要分布式机器学习,集合通信则是分布式机器学习的底层支撑,集合通信的难点在于需要在一定的网络互联结构的约束下进行高效的通信,需要在效率与成本、带宽与时延、客户要求与质量、创新与产品化等之间进行合理取舍。

Torus网络架构是一种完全对称的拓扑结构,具有很多优良特性,如网络直径小、结构简单、路径多以及可扩展性好等特点,非常适合集合通信使用。索尼公司提出2D-Torus算法,其主要思想就是组内satter-reduce->组间all-reduce->组内all-gather IBM提出了3D-Torus算法。

我们用k-ary n-cube来表示。k是排列的边的长度,n是排列的维度。

3-ary 3-cube拓扑如下:

2D-Torus拓扑为例,可以将网络结构表达成如下的Torus结构。

  • 横向:每台服务器XGPU节点,每GPU节点通过私有协议网络互联(如NVLINK);

  • 纵向:每台服务器通过至少2RDMA网卡NIC 0 /NIC 1通过交换机互联。

1步,横向,先进行主机内Ring Scatter Reduce,将主机内8张卡上的梯度进行拆分与规约,这样经过迭代,到最后每个GPU将有一个完整的同维梯度,该块梯度包含所有GPU中该块所对应的所有梯度的总和;

2步,纵向,进行主机间X个纵向的 Ring All Reduce,将每台服务器的XGPU上的数据进行集群内纵向全局规约;

3步,横向,进行主机内All Gather,将GPUi[i=0~(X-1)]上的梯度复制到服务器内的其他GPU上;

Torus网络架构具有如下优势:

  • 更低的延迟:环面拓扑可以提供更低的延迟,因为它在相邻节点之间有短而直接的链接;

  • 更好的局部性:在环面网络中,物理上彼此靠近的节点在逻辑上也很接近,这可以带来更好的数据局部性并减少通信开销,从而降低时延和功耗。

  • 较低的网络直径:对于相同数量的节点,环面拓扑的网络直径低于CLOS网络,需要更少的交换机,从而节省大量成本。

Torus网络架构也存在一些不足:

  • 可预测方面,环面网络中是无法保证的;

  • 易扩展方面:缩放环面网络可能涉及重新配置整个拓扑,可能更加复杂和耗时;

  • 负载平衡方面:环面网络提供多条路径,但相对Fat-tree备选路径数量要少;

  • 故障排查:对于突发故障的排查复杂性略高,不过动态可重配路由的灵活性可以大幅避免事故。


Torus网络拓扑除了2D/3D结构外,也在向更高维度发展,Torus高维度网络中的一个单元称之为硅元,一个硅元内部采用3D-Torus拓扑结构,多个硅元可以构建更高维的4D/5D/6D-Torus直接网络。

来源:https://mp.weixin.qq.com/s/DXKEJHif7bkA4zXsm_HuFA

下载链接:

走进芯时代系列

走进芯时代(76):HBM迭代,3D混合键合成设备材料发力点

走进芯时代(75):“半导核心材料”:万丈高楼材料起,夯实中国“芯”地基”

走进芯时代(74):以芯助先进算法,以算驱万物智能

走进芯时代(60):AI算力GPU,AI产业化再加速,智能大时代已开启

走进芯时代(58):高性能模拟替代渐入深水区,工业汽车重点突破

走进芯时代(57):算力大时代,处理器SOC厂商综合对比

走进芯时代(49):“AI芯片”,AI领强算力时代,GPU启新场景落地

走进芯时代(46):“新能源芯”,乘碳中和之风,基础元件腾飞

走进芯时代(43):显示驱动芯—面板国产化最后一公里

走进芯时代(40):半导体设备,再迎黄金时代


转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)和“存储系统基础知识全解(终极版)pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价399元)。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

来源:架构师技术联盟

相关新闻

AI智算网络两大主流架构及差异分析InfiniBand网络、HDR和IB在超算中的应用实践Npj Comput. Mater.: 超导与拓扑共存—Kagome金属网络架构如何支持超万卡的大规模 AI 训练?89岁计算机架构先驱、超算软件之父戈登·贝尔逝世!ACM奖项以他命名智算中心改造:网络成大模型训练瓶颈,节点内外多架构并存超级AI即将诞生?史上最强超算9月上线,英伟达最强芯片加持买不到GPU,马斯克自曝AI巨兽Dojo!自研超算挑战英伟达,约等于8千块H10010万块芯片,马斯克用最大超算挑战GPT仅用19天,马斯克建成全球最强“超算工厂”!10万块H100 GPU上线,Grok 3预计年底发布一个具有2560个GPU,316800个CPU核心的超算系统AI争霸战开启!OpenAI急建10万块GB200超算,马斯克10万块H100月末开训神经网络架构「殊途同归」?ICML 2024论文:模型不同,但学习内容相同“只有更快才有竞争力”!马斯克叫停与甲骨文的100亿美元谈判,拟自建“超算工厂”加速AI布局Elon Musk配备350000个GPU的超算即将上线陕西推出AI千亿级发展计划,五大产业集群,智算超3000P马斯克烧几十亿美元造最大超算中心,10万块H100训练Grok追赶GPT-4o均价300万美元?英伟达GH200超级芯片落地9个超算中心,每秒两百亿亿次flop一台拥有1.72 亿个内核的超算超算、智算两手硬,并行科技点燃未来增长新引擎GPU服务器AI网络架构设计(下)厉害了!阿里云提出新一代AI网络架构HPN7.0GPU服务器AI网络架构设计(上)数据中心网络架构设计与挑战
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。