英伟达高管谈NVL72 机架的新设计
来源:内容由半导体行业观察(ID:icbank)编译自hpcwire,谢谢。
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
GTC 展厅上的 Nvidia 新款旗舰级大型服务器 DGX GB200 的照片因其为人工智能带来的强大计算能力而在社交媒体上获得了好评。
Nvidia 的 DGX GB200(也称为 NVL72 机架服务器)可在 NVLink 域内配置多达 576 个 GPU。除此之外,DGX 系统还可以通过 SuperPOD 配置和 InfiniBand 网络扩展到数以万计的其他 GB200 系统,以实现长距离通信。
HPCwire 采访了 Nvidia DGX 系统部门副总裁兼总经理 Charlie Boyle,了解该系统的设计和底层技术。这是经过编辑的文字记录。
HPCwire:新的 DGX 系统是什么?
Boyle: 2016 年,当我们在 GTC 上推出原始平台时,我们推出了一些世界前所未见的东西。这是我们第一次拥有 NVLink、GPU 和 SXM。我们经历了多代 DGX 系统,从 Pascal 到 Volta 和 Hopper,显然在全球客户和各种形式的企业中都取得了非常成功的成果。
我们宣布了一种新型系统,就像八年前我们宣布了一种新型系统一样。这个新系统是机架级计算机,我们称之为DGX GB200系统。它拥有 72 个 Blackwell 和 36 个 Grace GPU,全部集成到单个 NVLink 域中。
HPCwire:显然,更大强的动力,您能否分享更多关于采用该配置的决定?
Boyle:最初的 DGX 自诞生以来一直是单个机箱中的 NVLink 域。DGX-2 有一段时间有 16 路变体,但即使在那之后,我们又回到了 8 路域。随着人工智能模型变得越来越复杂,特别是在称为专家混合的新型模型中,多个人工智能模型一起工作来回答单个问题或生成单个输出,我们在实践中看到了一个限制因素。
在 MLPerf 示例中,限制因素之一是非常大的模型花费大约 60% 的时间在实际模型内相互通信。我们意识到,如果我们能够构建一个更大的 NVLink 域,就可以缓解通信问题,因为 NVLink 甚至比最快的 InfiniBand 还要快得多。
借助这个新系统,您可以在单个机架中获得 72 个 GPU、36 个 CPU 和 9 个 NVSwitch 单元,所有这些都作为单个 DGX 单元交付给客户。新的机架系统也是液冷的,非常节能,并且可以利用环境水和输入水来节省数据中心的费用。
HPCwire:您可以扩展到超出 GB200 系统多远?
Boyle: 我们将这个单一系统称为 DGX GB200 系统(您也可能会看到它称为 NVL-72),可以与任意数量的机架连接,在 DGX SuperPOD 配置中可连接多达数万个 GPU 。
SuperPOD 产品是 Nvidia 的交钥匙产品。我们构建它,将其运送给客户,并安装一切,包括客户验收测试。
这款 SuperPOD 的一大新特点是,上一代 SuperPOD 是在客户所在地使用您习惯看到的经典 DGX 系统进行现场组装的。
这款新的 SuperPOD 将完全在工厂制造,通过所有老化测试,拆除一半电缆,然后将机架运送给客户。一旦到达那里,电缆将重新插入,最终客户将接受验收,以更快地实现价值。
HPCwire:NVLink 和 InfiniBand 之间有什么区别?
Boyle: NVLink 是一种芯片间通信技术,其运行方式类似于内存系统。从语义和执行操作的方式来看,它的功能类似于内存总线。
由于其专业性,NVLink 比 InfiniBand 快得多,但由于速度和延迟最大值而存在距离限制。NVLink 具有使其能够同时与所有芯片快速通信的功能。相比之下,InfiniBand 等传统网络技术以经典的数据源-目标方式发送信息。
在 72 GPU 机架配置中,任何 GPU 都可以直接访问任何其他 GPU 的内存,就好像它是本地的一样。NVLink 和 InfiniBand 是互补技术。此前,最大的 NVLink 域位于名为 HGX 板的物理板上,该板有 8 个 GPU 和几个 NVSwitch 单元,所有 NVLink 连接均在 PCB 走线上完成。
在新一代中,我们能够从计算芯片本身(即 Grace-Hopper 超级芯片)扩展 NVLink 领域。
当您看到系统图片并查看其背面时,您会注意到计算托盘。每个计算托盘都有两个 Grace CPU 模块和四个 Hopper 模块。每个托盘的背面都有外部 NVLink 连接器。您将看到一个完全布线的背板。计算架背面的每个 NVLink 端口都直接连接到同一机架中的外部 NVSwitch,所有连接都发生在系统背面。
在系统的正面,您会发现所有正常的网络连接。每个托盘都有四个 InfiniBand 端口,并包含我们用于南北通信的 BlueField-3 技术。BlueField 可以在 InfiniBand 或以太网模式下运行。该托盘还具有所有标准管理和以太网端口。机架本身包括用于机架内管理的网络基础设施。
HPCwire:新系统会改变 CUDA 程序员为 Nvidia 系统编写代码的方式吗?
Boyle: NVL72 是新系统更常见的配置,其中所有内容都设计为无缝协作。非常重要的核心库之一是 NCCL(NVIDIA Collective Communications Library)。多年来,我们改进了 NCCL,并增强了它理解系统中不同元素的能力。
在这个新系统中,作为 CUDA 程序员或更高级的程序员,您可以从任何应用程序访问所有 GPU 内存。与上一代产品相比,Hopper 的训练性能提高了 4 倍,推理能力提高了 30 倍以上。最好的部分是,它运行与 A100 上相同的软件,无需任何特殊的编程语义即可利用新系统的强大功能。
我们在软件方面所做的一件大事就是,如果人们不想要的话,就不会将这种复杂性暴露给他们。当然,如果需要,您仍然可以直接在较低级别进行编程。但是,您也可以运行一个简单的 [PyTorch] 命令……系统将自动将所有工作放置在机架中运行的所有操作系统映像上,确保以最佳位置完成工作。
考虑到通常购买大量 DGX 系统的企业越来越多地进入这一领域,我们已经从软件中消除了很多复杂性。他们有数据科学家和想要运行人工智能的人,但他们不一定有想要直接在低水平上对芯片进行编程的人。显然,我们有一些客户这样做,我们完全为他们启用该技术。
HPCwire:您如何看待未来的 DGX 设计?您从过去的设计中学到了什么?
Boyle:当我们将 GB200 系统视为未来的旗舰产品时,我们在系统中放入的很多内容都是希望客户永远不会看到的东西。我们从构建超大型集群中学到了很多东西,因为 NVIDIA 为研究人员独立完成了这项工作。
我们在系统中添加了大量的预测性维护、工作自动化和遥测功能,以便系统能够自行管理。随着系统变得越来越复杂,用户群越来越多地扩展到企业的其他方面,许多企业没有数据中心来放置这些系统,因此它们将被放置在我们的数据中心提供商之一。我们为此制定了完整的 DGX 计划。
未来,客户将运行极其复杂的作业,整个集群中的任何小问题都可能导致作业中断。然而,客户只想完成工作。
我们在这个平台上所取得的进步之一是硬件和软件的结合……芯片中有特定的新 RAS(可靠性、可用性和可服务性)功能,可以帮助我们预测正在发生的情况。
我们有一个预测性维护人工智能,我们在集群级别运行,以查看哪些节点健康,哪些节点不健康。我们不仅仅是一个二进制文件“这个是健康的,这个不是”,我们正在查看来自所有这些 GPU 的数据轨迹,每秒监控数千个数据点,以了解如何以最佳方式完成工作。
从系统设计的角度来看,我们最初的 DGX 目标是构建当时无法构建的东西。2016 年,8 路 NVLink 系统闻所未闻,但现在它已成为标准,每个 CSP 都在构建它们。然而,我们仍然构建它们,当我们展望未来时,我们会构建越来越大的集群,同时使集群足够智能来执行客户希望它做的工作,处理所有经常发生的小事情在集群中。
如果您正在运行大型系统,总会发生一些事情。我们希望将智能构建到集群本身中,以便它可以执行主要指令(如果您愿意):完成工作。如果作业终止,我们希望最小化重新启动时间。对于一项非常大的工作,过去需要几分钟甚至几个小时,我们正在努力将其缩短到几秒钟。
HPCwire:云提供商拥有与您的系统类似的多路 DGX 配置。是这样的吗?
Boyle: 这就是我们 DGX 的目标。我们将其构建为设计参考并在内部使用,但我们也与所有合作伙伴广泛共享该信息。
许多采用 GB200 GPU 的云提供商都从该参考设计开始,因为它为他们节省了大量的研发时间和金钱。
他们查看参考设计并说:“这很棒,但我需要它更高一点,我需要不同的流形,并且我想使用我自己的系统管理。”这就是其背后的想法。我们已经向所有合作伙伴发布了 GB200 架构,他们都在基于它构建系统。
原文链接
https://www.hpcwire.com/2024/03/27/qa-with-nvidias-chief-of-dgx-systems-on-the-dgx-gb200-rack-scale-system/
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3718期内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者