博通5nm新芯片:支持铜缆,叫板英伟达
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank)编译自nextplatform,谢谢。
除了光纤在数据中心网络中受到的关注之外,铜缆仍然是短距离传输的王者。原因很简单:那些在短距离和长距离数据中心距离上将服务器连接到交换机和交换机相互连接的光纤收发器非常昂贵。而且它们在现场也经常出现故障,导致大规模 HPC 模拟和 AI 训练运行失败。
因此,技术和经济成功的诀窍是只有在绝对必要时才使用光学器件,并坚持使用铜线和可以在所使用的系统的任何情况下尽可能直接驱动它的设备。
没有什么比Nvidia 于 3 月推出的 DGX GB200 NVL72 超级计算机节点更能说明这一原则了,它使用其“Grace”CG100 Arm 服务器 CPU 和一对“Blackwell”GB100 GPU 加速器,并用 5184 条粗大的铜缆捆绑在一起,这些铜缆用于在全对全配置中互连 72 个 Blackwell GPU。NVL72 系统核心的九台 NVLink Switch 4 交换机中的 200 Gb/秒 SerDes 可以通过铜线直接驱动 1.8 TB/秒的 NVLink 5 端口,而无需重定时器,当然也无需长途数据中心网络中使用的光收发器。
在发布会上,Nvidia 联合创始人兼首席执行官黄仁勋表示,NVL52 系统的功率为 120 千瓦,但如果 Nvidia 使用光学器件,重定时器和光收发器将使 NVL72 系统的功率预算再增加 20 千瓦。他没有透露成本,但我们认为光学器件将显著增加机架级系统的网络互连代码(可能翻倍),同时也会增加节点级故障的可能性。
博通是向数据中心交换市场销售商用硅片的领军企业,其基于“Thor”系列 NIC 芯片的网络接口卡业务规模庞大,因此它非常关注铜线和光纤及其布线。出于同样的成本和可靠性原因,Nvidia 也做出了上述 NVL72 计算节点的选择。
博通软件产品和生态系统负责人 Hasan Siraj 告诉The Next Platform :“一个 4,000 个节点的集群将在其互连中拥有 9,200 个光纤设备。”他将带光纤的 InfiniBand 与不带光纤的以太网进行了比较和对比。“每个超大规模提供商都会告诉你,每个客户也会告诉你,它们会发生故障,故障率高达 5%。但即使这样的集群的故障率为 2%,每个月也会发生大约 15 次光纤故障。虽然 InfiniBand 可能是一种无损结构,但由于这些光纤设备发生故障,它本质上会变得有损。而且 InfiniBand 在这些故障中还有另一个问题。与以太网相比,由于它是一种静态结构,它从这些故障中恢复的时间要长 30 倍。InfiniBand 有一个统一结构管理器,但您必须回过头来找出下一个路线是什么。而以太网本质上是一种动态结构——您拥有边界网关协议 (BGP) 和双向转发检测 (BFD) 等功能,并且我们在硅片中做了一些工作,可以在 10 纳秒内从这些硬件故障中恢复。所有这些都有助于缩短 AI 作业的完成时间。”
重点是,您要避免返回检查点并从该点重新加载系统状态,然后从那里重新运行 HPC 模拟或 AI 训练。并且您要尽可能避免在网络设计中使用过多的光学器件以消除故障,这意味着直接从 NIC 驱动以太网端口并尽可能使用直接连接铜缆 (DAC)。
这就是 Broadcom 的“Thor”系列 NIC 芯片的全部内容,它刚刚进行了更新。
“Thor 1” ASIC 于 2010 年初推出,并于当年秋季开始提供样品。Thor 1 采用台积电的 16 纳米工艺蚀刻而成,用于插入 PCI-Express 4.0 服务器插槽的网络适配器,其 SerDes 可驱动原生 56 Gb/秒信号,结合 PAM-4 编码,在消除编码开销后,可驱动一对 100 Gb/秒端口。
“Thor 2” NIC 芯片与 NVLink Switch 4 ASIC 一样,能够直接从 ASIC 上的 SerDes 驱动铜缆,该芯片于 2022 年推出,2023 年出样,现已开始出货。考虑到这些机器的规模(我们听说过的最大集群中有 20,000 到 60,000 个 GPU),低功耗是 AI 网络中非常重要的因素,因此 Broadcom 通过将 Thor 2 NIC 芯片缩小到 5 纳米 TSMC 工艺,真正突破了功耗极限。(这个尺寸足够小,可以大大节省功耗,但不是昂贵的 4 纳米或 3 纳米工艺,这些工艺尚未成熟或便宜。)
以下是 2022 年 Thor ASIC 的对比图,当时 Thor 1 芯片已投入生产两年,而博通则暗示了一些有关 Thor 2 系列的信息:
如您所见,Thor 2 芯片 SerDes 具有原生 112 Gb/秒信号,并在顶部进行 PAM4 编码,在消除编码开销后,能够驱动单个 400 Gb/秒端口、一对 200 Gb/秒端口或四个 100 Gb/秒端口。到目前为止,所有 Thor 芯片都具有多主机功能,允许将上行链路上的带宽分配到两个或四个主机上。如您所见,Thor 芯片还保证了较长的技术和经济寿命,Thor 1 至少可以使用到 2036 年——是的,那是从现在起的十几年——而 Thor 2 的使用时间将远远超过这个数字,但目前尚不确定。
Thor 2 适配器插入 PCI-Express 5.0 插槽。Broadcom 很乐意向超大规模计算公司、云构建商、HPC 中心和任何其他人出售整张适配器卡,或者只是 ASIC,甚至为那些想要创建自己的 NIC 的人提供设计中的 IP。
单端口 Thor 2 BCM957608-N1400G 适配器的外观如下,它支持一个 400 Gb/秒端口。
还有 Thor 2 BCM957608-P2200G 适配器,可驱动两个 200 Gb/秒端口:
Siraj 表示,有了 Thor 2,Broadcom 将成为唯一一家支持线性可插拔光学器件的 NIC 提供商,这只是一种花哨的说法,即如果您需要使用光学器件在数据中心中驱动更长的距离,NIC 可以直接驱动光学器件。但根据 Siraj 的说法,Thor 2 还可以直接驱动长达 5 米的铜缆,而大多数 NIC 竞争对手只能驱动 2.5 米长的铜缆。Siraj 说,这大大降低了电力需求——最多比竞争对手少了一半。
Thor 2 芯片还支持 RoCE v2 RDMA,它类似于 InfiniBand 内置的 RDMA,但在以太网上运行。Siraj 表示,借助 Thor 3 ASIC,博通将采用超级以太网联盟技术,并将端口速度提高到 800 Gb/秒。Thor 3 预计将于明年推出,与服务器中 PCI-Express 6.0 外设插槽的预期交付大致同步。
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3780期内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者