Nvidia GB200芯片没问题?至少问题不大!
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:编译自theregister
富士康高管声称将于第四季度开始出货少量 GB200 系统,但 Nvidia 所谓的 Blackwell 供应问题可能并不像最初想象的那么严重。
富士康发言人吴小晖在一份报告中表示:“我们正在按计划开发和准备新型 AI 服务器的生产,预计将于 2024 年最后一个季度开始小批量出货,并在明年第一季度增加产量。”
不过,吴暗示产品的时间表可能已经改变,并指出当规格和技术升级时,发货时间表发生变化是正常的。无论 Nvidia 的 Blackwell 部件是否确实如此,吴坚称富士康将是 GB200 加速器的第一个供货商。
今年春季发布的GB200是 Nvidia Grace 超级芯片系列的第二代产品,配备一对 1,200W Blackwell GPU 和一个 72 核 Grace CPU。完整版 GB200 超级芯片中有 36 个(总共 72 个 GPU),设计用于装入 18 个 1U 服务器中,所有服务器均通过高速 NVLink 交换结构互连。该系统被称为 DGX NVL72,拥有 13.5TB HBM3e 和 1.44 exaFLOPS FP4 性能。
就在富士康高管发表上述言论的一周前,有报道称英伟达已警告微软,其 Blackwell GPU 的出货将推迟到 2025 年第一季度。
据称,Nvidia 及其制造合作伙伴台积电可能在将计算芯片 HBM3e 内存模块拼接在一起的先进封装技术方面遇到了挑战。更糟糕的是,CoWoS 的产能仍然极其有限,台积电首席执行官魏哲家警告称,AI 芯片短缺可能会持续到 2025 年。
因此,据称 Nvidia 将优先考虑其旗舰 GB200 部件,而不是规格较低的 HGX B100 和 B200 配置,并将向市场推出一款名为 B200A 的精简版 Blackwell。据称,该芯片将是单片的,具有四个 HBM 堆栈,使其尺寸约为我们今年春天看到的芯片的一半。
在回应《The Register》的报道时,Nvidia 的发言人重申,Blackwell 的大范围送样已经开始,产量有望在下半年提升。
Nvidia 此前曾承诺Blackwell 将在 2024 年下半年开始交付客户。当时,这让我们相信少数 Blackwell 芯片将在第四季度进入市场,绝大多数芯片将在 2025 年交付客户。
还有 Nvidia 的 H200 问题,该芯片在第三季度才开始批量出货。这些部件本质上是老牌H100 的带宽增强版,拥有 141GB HBM3e,内存带宽为 4.8TB/s。这些因素应该使 H200 成为大型语言模型 (LLM) 推理的热门选择,因为性能在很大程度上受到内存带宽和容量的限制。
然而,H200 也给 Nvidia 即将推出的 B200A 带来了潜在问题。假设 Nvidia 将原来的 B200 切成两半,那么它的容量将达到 96GB,内存带宽为 4TB/s。
B200A 的性能提升可能也不大,因为顶级规格的部件的8 位浮点性能仅为 Hopper 同类产品的 2.5 倍。如果将其减半,则可能只有 25% 的提升。当然,如果 Nvidia 保持 B200 的 1,000W 功率目标,则性能提升可能会更高,具体取决于他们能将时钟频率提高到何种程度。
话虽如此,如果 Nvidia 确实遇到了生产挑战,并且现在有一堆无法拼接在一起的 Blackwell 芯片,那么缩减版本将是一种非常简单的挽救现有库存的方法,特别是如果它们可以以较低的成本出售的话。
之前传言:Nvidia 因封装问题将 Blackwell GPU 推迟
据The Information上个报道,GPU 巨头英伟达最近通知微软,Blackwell 家族最先进型号的发布将延迟。我们已向 Nvidia 寻求确认。
该问题可能意味着 Blackwell B200 等芯片的批量出货将延迟三个月或更长时间,从而扰乱微软和 Meta 等客户的计划。据报道,这些客户已订购价值数十亿美元的新 GPU 来推动其 AI 服务。
这也意味着 Nvidia 可能不得不取消或推迟某些产品,以便将可用的硅供应集中在其认为最优先的产品上。
根据半导体研究公司SemiAnalysis的报告,GPU 发货延迟的主要原因与 Nvidia 对 Blackwell 系列的物理设计有关。具体来说,Blackwell 是首款使用 Nvidia 芯片制造商台积电 (TSMC) 的 CoWoS-L 封装技术的量产设计。
CoWoS是一种使用互连的芯片(通常是一个片上系统 (SoC) 和一个或多个高带宽内存 (HBM) 芯片)来设计更复杂和先进的产品的方法。
然而,CoWoS-L 的复杂程度与 CoWoS-S 完全不同,其中的芯片安装在相对简单的硅中介层上。
CoWoS-L 则使用有机中介层作为重分布层 (RDL),在顶部的芯片之间路由信号,利用中介层中嵌入的局部硅互连 (LSI) 和桥接芯片。
SemiAnalysis 表示,为了将 CoWoS 封装扩展到比 AMD MI300 GPU 更大的尺寸,需要使用有机中介层,因为硅易碎,随着中介层变大,处理非常薄的硅中介层会变得更加困难。LSI 和桥接芯片有助于弥补有机中介层较差的电气性能。
然而,分析师表示,这项技术也出现了一些问题。其中之一是,在中介层中嵌入多个硅桥可能导致硅片、硅桥、有机中介层和基板之间的热膨胀不匹配,从而导致基板弯曲,从而破坏连接。
然而,根据 SemiAnalysis 的报告,延迟的主要原因是桥接芯片,被认为需要重新设计,同时还需要重新设计顶部几个全局布线金属层和 Blackwell 芯片本身的凸出部分。
此外,正如多次报道的那样,台积电没有足够的 CoWoS 封装产能来满足需求。SemiAnalysis 称,问题在于台积电在过去几年中建立了 CoWoS-S 产能,主要是为了服务 Nvidia,但现在这家 GPU 制造商正在将其产品转向 CoWoS-L。
台积电正在建设新的 CoWoS-L 生产晶圆厂,与此同时,这家半导体合约制造商迫切需要转换其旧的 CoWoS-S 产能,以满足需求。
与此同时,Nvidia 必须选择如何使用台积电提供的供应。因此,Semi 表示,它认为该公司几乎完全专注于 GB200 NVL36/72机架规模系统,而 B100 和 B200 的 HGX 外形“现在实际上已被取消,除了一些初始的较低产量。”
为了满足需求,Nvidia 还将向市场推出一款名为 B200A 的 Blackwell GPU,该 GPU 基于 B102 芯片,该芯片还专门用于 Nvidia 的“中国特供”B20 GPU。根据 SemiAnalysis 的说法,这款 B102 是一块具有 4 个 HBM 堆栈的单片芯片,允许芯片封装在 CoWoS-S 上,而不是 CoWoS-L 上。
所有这些都不太可能对 Nvidia 造成太大的伤害。金融新闻网站Barron's表示,这家 GPU 大师可能会在 2025 年初而不是 2024 年底获得数十亿美元的收入,但客户仍然无法获得他们想要的所有 Hopper 芯片,因此该公司可能会生产更多这样的芯片。
然而,Nvidia 可能在 B20 上面临更多问题。据《南华早报》报道,华盛顿正在考虑进一步收紧出口限制,以阻止新 GPU 在其目标市场中国销售。
去年底,美国商务部长吉娜·雷蒙多 (Gina Raimondo)警告称,美国必须继续加强限制,以防止其对人工智能芯片的出口管制被规避。
她当时说:“如果你围绕特定的切割线重新设计芯片,使其能够实现人工智能,那么我将在第二天控制它。”
Nvidia 的一位发言人没有否认这些报道,但他告诉The Reg:“正如我们之前所说,Hopper 的需求非常强劲,Blackwell 的广泛样品已经开始,产量有望在下半年增加。除此之外,我们不对谣言发表评论。”
我们注意到,今年 3 月,内华达州告诉我们 Blackwell 处理器将于今年下半年开始出货,尽管它对时间表含糊其辞——现在仍然如此。今年“按计划”增加产量可能仍意味着,该公司将以比行业预期更晚的方式推出芯片,如上述报道所称,时间是 2025 年。
简而言之,Blackwell 很可能会像传言中那样被推迟,但另一方面,Nvidia 并没有公开这款硅片何时会上市。
参考链接
https://www.theregister.com/2024/08/14/nvidia_foxconn_blackwell/
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3855内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者