Nvidia GB200芯片没问题？至少问题不大！

国际科技财经移民娱乐民生时事体育

Bendi新闻

5月前

👆如果您希望可以时常见面，欢迎标星🌟收藏哦~

来源：编译自theregister

富士康高管声称将于第四季度开始出货少量 GB200 系统，但 Nvidia 所谓的 Blackwell 供应问题可能并不像最初想象的那么严重。

富士康发言人吴小晖在一份报告中表示：“我们正在按计划开发和准备新型 AI 服务器的生产，预计将于 2024 年最后一个季度开始小批量出货，并在明年第一季度增加产量。”

不过，吴暗示产品的时间表可能已经改变，并指出当规格和技术升级时，发货时间表发生变化是正常的。无论 Nvidia 的 Blackwell 部件是否确实如此，吴坚称富士康将是 GB200 加速器的第一个供货商。

今年春季发布的GB200是 Nvidia Grace 超级芯片系列的第二代产品，配备一对 1,200W Blackwell GPU 和一个 72 核 Grace CPU。完整版 GB200 超级芯片中有 36 个（总共 72 个 GPU），设计用于装入 18 个 1U 服务器中，所有服务器均通过高速 NVLink 交换结构互连。该系统被称为 DGX NVL72，拥有 13.5TB HBM3e 和 1.44 exaFLOPS FP4 性能。

就在富士康高管发表上述言论的一周前，有报道称英伟达已警告微软，其 Blackwell GPU 的出货将推迟到 2025 年第一季度。

据称，Nvidia 及其制造合作伙伴台积电可能在将计算芯片 HBM3e 内存模块拼接在一起的先进封装技术方面遇到了挑战。更糟糕的是，CoWoS 的产能仍然极其有限，台积电首席执行官魏哲家警告称，AI 芯片短缺可能会持续到 2025 年。

因此，据称 Nvidia 将优先考虑其旗舰 GB200 部件，而不是规格较低的 HGX B100 和 B200 配置，并将向市场推出一款名为 B200A 的精简版 Blackwell。据称，该芯片将是单片的，具有四个 HBM 堆栈，使其尺寸约为我们今年春天看到的芯片的一半。

在回应《The Register》的报道时，Nvidia 的发言人重申，Blackwell 的大范围送样已经开始，产量有望在下半年提升。

Nvidia 此前曾承诺Blackwell 将在 2024 年下半年开始交付客户。当时，这让我们相信少数 Blackwell 芯片将在第四季度进入市场，绝大多数芯片将在 2025 年交付客户。

还有 Nvidia 的 H200 问题，该芯片在第三季度才开始批量出货。这些部件本质上是老牌H100 的带宽增强版，拥有 141GB HBM3e，内存带宽为 4.8TB/s。这些因素应该使 H200 成为大型语言模型 (LLM) 推理的热门选择，因为性能在很大程度上受到内存带宽和容量的限制。

然而，H200 也给 Nvidia 即将推出的 B200A 带来了潜在问题。假设 Nvidia 将原来的 B200 切成两半，那么它的容量将达到 96GB，内存带宽为 4TB/s。

B200A 的性能提升可能也不大，因为顶级规格的部件的8 位浮点性能仅为 Hopper 同类产品的 2.5 倍。如果将其减半，则可能只有 25% 的提升。当然，如果 Nvidia 保持 B200 的 1,000W 功率目标，则性能提升可能会更高，具体取决于他们能将时钟频率提高到何种程度。

话虽如此，如果 Nvidia 确实遇到了生产挑战，并且现在有一堆无法拼接在一起的 Blackwell 芯片，那么缩减版本将是一种非常简单的挽救现有库存的方法，特别是如果它们可以以较低的成本出售的话。

之前传言：Nvidia 因封装问题将 Blackwell GPU 推迟

据The Information上个报道，GPU 巨头英伟达最近通知微软，Blackwell 家族最先进型号的发布将延迟。我们已向 Nvidia 寻求确认。

该问题可能意味着 Blackwell B200 等芯片的批量出货将延迟三个月或更长时间，从而扰乱微软和 Meta 等客户的计划。据报道，这些客户已订购价值数十亿美元的新 GPU 来推动其 AI 服务。

这也意味着 Nvidia 可能不得不取消或推迟某些产品，以便将可用的硅供应集中在其认为最优先的产品上。

根据半导体研究公司SemiAnalysis的报告，GPU 发货延迟的主要原因与 Nvidia 对 Blackwell 系列的物理设计有关。具体来说，Blackwell 是首款使用 Nvidia 芯片制造商台积电 (TSMC) 的 CoWoS-L 封装技术的量产设计。

CoWoS是一种使用互连的芯片（通常是一个片上系统 (SoC) 和一个或多个高带宽内存 (HBM) 芯片）来设计更复杂和先进的产品的方法。

然而，CoWoS-L 的复杂程度与 CoWoS-S 完全不同，其中的芯片安装在相对简单的硅中介层上。

CoWoS-L 则使用有机中介层作为重分布层 (RDL)，在顶部的芯片之间路由信号，利用中介层中嵌入的局部硅互连 (LSI) 和桥接芯片。

SemiAnalysis 表示，为了将 CoWoS 封装扩展到比 AMD MI300 GPU 更大的尺寸，需要使用有机中介层，因为硅易碎，随着中介层变大，处理非常薄的硅中介层会变得更加困难。LSI 和桥接芯片有助于弥补有机中介层较差的电气性能。

然而，分析师表示，这项技术也出现了一些问题。其中之一是，在中介层中嵌入多个硅桥可能导致硅片、硅桥、有机中介层和基板之间的热膨胀不匹配，从而导致基板弯曲，从而破坏连接。

然而，根据 SemiAnalysis 的报告，延迟的主要原因是桥接芯片，被认为需要重新设计，同时还需要重新设计顶部几个全局布线金属层和 Blackwell 芯片本身的凸出部分。

此外，正如多次报道的那样，台积电没有足够的 CoWoS 封装产能来满足需求。SemiAnalysis 称，问题在于台积电在过去几年中建立了 CoWoS-S 产能，主要是为了服务 Nvidia，但现在这家 GPU 制造商正在将其产品转向 CoWoS-L。

台积电正在建设新的 CoWoS-L 生产晶圆厂，与此同时，这家半导体合约制造商迫切需要转换其旧的 CoWoS-S 产能，以满足需求。

与此同时，Nvidia 必须选择如何使用台积电提供的供应。因此，Semi 表示，它认为该公司几乎完全专注于 GB200 NVL36/72机架规模系统，而 B100 和 B200 的 HGX 外形“现在实际上已被取消，除了一些初始的较低产量。”

为了满足需求，Nvidia 还将向市场推出一款名为 B200A 的 Blackwell GPU，该 GPU 基于 B102 芯片，该芯片还专门用于 Nvidia 的“中国特供”B20 GPU。根据 SemiAnalysis 的说法，这款 B102 是一块具有 4 个 HBM 堆栈的单片芯片，允许芯片封装在 CoWoS-S 上，而不是 CoWoS-L 上。

所有这些都不太可能对 Nvidia 造成太大的伤害。金融新闻网站Barron's表示，这家 GPU 大师可能会在 2025 年初而不是 2024 年底获得数十亿美元的收入，但客户仍然无法获得他们想要的所有 Hopper 芯片，因此该公司可能会生产更多这样的芯片。

然而，Nvidia 可能在 B20 上面临更多问题。据《南华早报》报道，华盛顿正在考虑进一步收紧出口限制，以阻止新 GPU 在其目标市场中国销售。

去年底，美国商务部长吉娜·雷蒙多 (Gina Raimondo)警告称，美国必须继续加强限制，以防止其对人工智能芯片的出口管制被规避。

她当时说：“如果你围绕特定的切割线重新设计芯片，使其能够实现人工智能，那么我将在第二天控制它。”

Nvidia 的一位发言人没有否认这些报道，但他告诉The Reg：“正如我们之前所说，Hopper 的需求非常强劲，Blackwell 的广泛样品已经开始，产量有望在下半年增加。除此之外，我们不对谣言发表评论。”

我们注意到，今年 3 月，内华达州告诉我们 Blackwell 处理器将于今年下半年开始出货，尽管它对时间表含糊其辞——现在仍然如此。今年“按计划”增加产量可能仍意味着，该公司将以比行业预期更晚的方式推出芯片，如上述报道所称，时间是 2025 年。

简而言之，Blackwell 很可能会像传言中那样被推迟，但另一方面，Nvidia 并没有公开这款硅片何时会上市。

参考链接

https://www.theregister.com/2024/08/14/nvidia_foxconn_blackwell/

点这里👆加关注，锁定更多原创内容

END

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。