Bendi新闻
>
InfiniBand与RoCE对比分析:AI数据中心网络选择指南

InfiniBand与RoCE对比分析:AI数据中心网络选择指南

7月前

本文来自“InfiniBand与RoCE对比分析:AI数据中心网络选择指南”。在当前人工智能技术飞速发展的背景下,其在包括自然语言处理、计算机视觉、自动驾驶系统、虚拟助手服务、推荐算法以及医疗诊断在内的众多前沿应用中发挥着至关重要的作用。随着AI应用的不断深化与升级,数据中心基础设施必须应对日益严苛的要求,特别是对于低延迟、高吞吐量网络的需求愈发迫切,以确保能够高效处理复杂且数据密集型的工作负载。

相关阅读:

InfiniBand,撼动不了以太网?

英伟达Quantum-2 Infiniband平台技术A&Q

一颗Jericho3-AI芯片,用来替代InfiniBand?

RoCE技术在HPC中的应用分析

GPU集群:NVLink、InfiniBand、ROCE、DDC技术分析

InfiniBand高性能网络设计概述

一文了解InfiniBand和RoCE网络技术

关于InfiniBand和RDMA网络配置实践

InfiniBand网络简介

在AI数据中心中,InfiniBand网络凭借其卓越的性能和可靠性备受瞩目。该网络通过专门设计的InfiniBand适配器或交换机实现高效的数据传输,并由多个核心组件构成:子网管理器(SM)、InfiniBand网卡、InfiniBand交换设备以及专用的InfiniBand线缆与光模块。
全球知名芯片制造商NVIDIA,在推动高性能计算和AI领域发展的同时,也成为了提供一系列InfiniBand网卡解决方案的主要力量。其中包括正在快速演进的200Gbps HDR技术及已大规模商业部署的400Gbps NDR网卡产品。此处展示的图表即为目前广泛应用的InfiniBand网络接口卡类型。.
值得一提的是,InfiniBand交换机不运行传统路由协议,而是采用集中式管理机制,由子网管理器负责整个网络转发表的计算与分发工作,同时承担着配置InfiniBand子网内部特性的重要任务,例如分区策略和服务质量(QoS)。构建InfiniBand网络时,必须使用专为InfiniBand设计的电缆和光模块来确保交换机之间以及交换机与网卡之间的无缝连接。

InfiniBand网络解决方案特性

本征无损传输机制

InfiniBand网络创新性地采用了基于信用的信号控制策略,从底层设计上有效防止了缓冲区溢出和数据包丢失的问题。在数据发送前,发送端会确保接收端拥有充足的信用额度来处理相应数量的数据包。每条链路在InfiniBand架构中均预设了缓冲区,数据传输量严格受限于接收端当前可用的缓冲区容量。一旦接收端完成转发任务,即释放缓冲区,并实时更新并反馈当前剩余的缓冲区大小。这种链路级别的流量控制技术确保了发送端不会向网络中过度填充数据,从而有效地避免了因缓冲区满载而导致的数据包丢失。

网卡扩展及自适应路由能力

InfiniBand网络还采用了先进的自适应路由技术,支持针对每个数据包进行动态路径选择,这使得在网络大规模部署时能充分利用资源,实现最优性能表现。例如,在百度AI云、微软Azure等大型云计算环境中,采用InfiniBand互联的GPU集群得到了广泛应用。

市场主要供应商及其产品优势

目前市场上有多家主流供应商提供具备竞争力的InfiniBand网络解决方案及相关硬件设备,其中NVIDIA凭借超过70%的市场份额成为市场领导者。此外,其他重要的行业参与者包括:
  • 英特尔公司:其供应一系列专为InfiniBand优化设计的网络产品和全套解决方案。

  • 思科系统:作为全球知名的网络设备制造商,思科提供了功能强大的InfiniBand交换机及相关配套产品。

  • 惠普企业(HPE):作为业界权威的IT企业,惠普企业推出了种类丰富的InfiniBand网络解决方案,涵盖了适配器、交换机以及服务器等多种关键组件。
这些顶级供应商的产品与解决方案均根据不同的用户需求进行了精细化定制,并能够满足各种规模和应用场景下对InfiniBand网络的部署要求。

RoCE v2网络技术概述

不同于依赖于集中式管理架构(如子网管理器SM)的InfiniBand网络,RoCE v2网络采用全分布式架构设计,并由具备RoCEv2功能的NIC(网络接口卡)和交换机共同构建,通常以两层架构部署在数据中心环境中。
多家主流制造商已提供支持RoCE技术的网络适配器产品,其中NVIDIA、Intel和Broadcom是主要供应商。作为数据中心服务器网络适配器的主要形态,PCIe卡广泛应用其中。RDMA卡普遍配置有50Gbps起步的端口PHY速率,目前市面上可购买到的商用单端口网络适配器最高速度已达400Gbps级别。
当前大部分数据中心交换机均已集成RDMA流控技术,在与RoCE网络适配器协同工作时,能够实现从发送端到接收端的高效RDMA通信。全球顶尖的数据中心交换机厂商,如Cisco、Hewlett Packard Enterprise(HPE)以及Arista等,均提供了高性能且稳定的数据中心解决方案,以满足大规模数据中心对带宽和性能的需求。这些公司在网络技术创新、性能优化及扩展性方面积累了深厚的专业经验,并在全球范围内赢得了广泛的市场认可和应用实践。
高性能交换机的核心竞争力在于其采用的转发芯片。在当前市场中,Broadcom公司的Tomahawk系列芯片被广泛应用于商业交换机的转发层面。其中,Tomahawk3系列芯片在现役交换机市场上占据主导地位,而随着技术迭代升级,越来越多的新型交换机开始支持更先进的Tomahawk4系列芯片。
RoCE v2基于以太网协议运行,因此可以充分利用传统的以太网光纤和光模块资源进行部署。

ROCE v2网络技术特性解析

相比于InfiniBand,RoCE v2网络解决方案在灵活性和成本效益上展现出更多优势。该技术不仅能够构建高性能的RDMA(远程直接内存访问)网络环境,同时还能无缝融入传统以太网架构中。然而,在实际部署过程中,需要对交换机进行诸如Headroom预留、PFC(优先级流量控制)以及ECN(显式拥塞通知)等参数的精细配置,这可能会增加一定的实施复杂度。尤其是在大规模部署场景下,尤其是当涉及大量网络接口卡时,相较于InfiniBand网络,RoCE v2网络的整体吞吐性能可能略逊一筹。
当前市场上,多家主流交换机供应商均支持RoCE协议,并提供了相应的解决方案。其中,NVIDIA推出的ConnectX系列网络适配器在与RoCE v2兼容性方面表现卓越,已在市场占有率上占据了显著地位。这意味着选择RoCE v2方案的企业能够在保持较高性价比的同时,享受到来自全球领先厂商的技术支持和服务保障。

InfiniBand vs. RoCE v2

从技术层面剖析,InfiniBand通过整合多种创新技术手段,有效提升了网络数据转发效率、缩短了故障恢复时间、增强了网络扩展性,并简化了运维管理的复杂度。
在实际应用中,RoCE v2作为一项高效解决方案,在满足大多数智能计算场景需求的同时,InfiniBand则凭借其在特定领域的卓越性能表现而备受瞩目。
业务性能:InfiniBand因其较低的端到端延迟特性,在应用层面上能提供更优的业务性能体验。尽管如此,RoCE v2同样能够在大部分智能计算场景下达到用户所需的业务处理效能标准。
业务规模:InfiniBand具备强大的扩展能力,能够支持数万个GPU卡构建集群,且在大规模部署下仍可保持性能稳定无损,已在业界拥有大量成功商业应用案例。而RoCE v2网络也不甘示弱,它能够支撑数千张卡构成的集群,并且整体网络性能并无显著下滑。
业务运维:InfiniBand相较于RoCE v2更加成熟,提供了诸如多租户隔离及运维诊断等高级功能,为数据中心的运维管理带来了更高的便捷性和可控性。
成本考量:InfiniBand的成本相对较高,主要原因在于其交换机设备的价格高于以太网交换机。
关于供应商:NVIDIA作为InfiniBand的主要供应商,持续为市场提供优质的产品与服务;而在RoCE v2领域,则有多家供应商共同参与并提供支持,为用户提供了更多元化的选择空间。

总结

近年来,数据中心网络技术发展的一个重要方向是简化网络架构设计、加快部署进程以及优化运维管理。通过采用如无编号BGP等创新技术方案,能够有效减少对复杂IP地址规划的依赖性,从而避免配置错误的发生,提升整体工作效率。与此同时,诸如WJH这类实时故障检测工具为网络运维带来了深度洞察力,极大地助力于快速定位和解决网络问题。
随着数据中心基础设施向分布式和多数据中心互联模式演进,对于更高速率及更高品质网络连接的需求日益增长。为了满足不断提升的整体服务质量要求,市场呼唤更为高效且可靠的网络解决方案。
文章来源:https://community.fs.com/cn/article/infiniband-vs-roce-how-to-choose-a-network-for-ai-data-center.html

下载链接:


转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)和“存储系统基础知识全解(终极版)pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价399元)。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

来源:架构师技术联盟

相关新闻

AI时代生存指南:不会AI,就失业!一文了解InfiniBand和RoCE网络技术打造高级实用玄关:设计技巧与指南!【装修干货】广州数据交易所:数据资产化实践指南报告(2024年)OCC-WCC 2024|心血管影像论坛:碰撞AI,追更指南,影像盛宴震撼来袭!张毅教授:2023年高血压指南共识回顾与治疗展望 | OCC-WCC 2024英伟达InfiniBand:面向AIGC的技术优势分析星空与人类文明04:春季观星指南来了,清明就能看到的天文奇观抄作业 | 万字长文:数据资产入表全流程,实操指南!国家卫健委:成人高尿酸血症与痛风食养指南(2024年版)德国与中国签证新政速递:避坑指南,让你签证无忧!新加坡安盛进军中国市场;16所晋升加盟多名合伙人;英国出台律师AI使用指南;山东、无锡律师行业数据公布 | 律所动态轻松配置NFS服务:CentOS7服务器与客户端自动挂载指南马上开始|BAT资深数据分析师为你带来《数据求职暑期备战指南》大数据技术标准推进委员会:2024年DataOps 实践指南2.0观远数据&亿欧智库:2024中国零售消费企业敏捷经营指南报告签证:中国护照在美国办理加拿大签证指南(2024.1更新)——增加你来往中美的选择旅行指南:斯里兰卡在线签证网站关闭!我该怎么入境?美国退休收入税收指南:如何最大化您的退休金不要AI恋人的年轻人,更期待的是「万能搭档」|2024年轻人驯化AI指南四大病症干预指南:有效应对抑郁、焦虑、解离、人格障碍最新37号文登记指南:境内居民境外投资外汇登记的流程及实操经验独立日烟花盛典指南:免费观赏地点+交通管制区域收好!7/4波士顿国庆活动指南:流行音乐、烟花汇演、如何观看烟花
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。