英伟达Blackwell和GeForce RTX 50系列GPU,我所知道的一切
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank) 编译自tomshardware,谢谢。
以下是我们对 Nvidia 下一代 Blackwell GPU 架构的了解和期望。
下一代 Nvidia Blackwell GPU 架构和 RTX 50 系列 GPU 即将问世,正如计划所料。虽然 Nvidia 尚未正式公布消费者版本的发布时间表,但已经有大量传言和所谓的数据泄露。我们今年早些时候与一些人进行了交谈,预计到 10 月或 11 月假期开始时,我们至少会看到 RTX 5090 和 RTX 5080,但最近的传言加上Blackwell B200 的延迟可能导致事情推迟。无论何时发布,我们预计 Blackwell GPU 都会加入最佳显卡的行列。
Nvidia提供了其数据中心 Blackwell B200 GPU的许多核心细节。虽然 AI 和数据中心版本不可避免地会与消费者版本有所不同,但过去的消费者和数据中心 Nvidia GPU 之间有一些共同点,我们预计这种情况会继续下去。这意味着我们至少对未来 RTX 50 系列 GPU 的某些方面有一些很好的暗示。 仍有许多未知数,泄漏看起来更像是人们向墙上扔飞镖,而不是拥有真正的内部信息。我们将介绍主要传言以及其他细节,包括发布日期、潜在规格和其他技术。在接下来的几个月里,我们可以期待更多细节的公布,我们将在信息可用时更新这篇文章。以下是我们对 Nvidia Blackwell 和 RTX 50 系列 GPU 的所有了解。
Blackwell 和 RTX 50 系列发布日期
在所有未知数中,发布日期(至少对于第一批 Blackwell GPU 而言)可能是最容易确定的。根据我们亲自听到的消息,RTX 50 系列可能会在今年年底推出,也就是 2024 年秋季。Nvidia 往往善于把握新 GPU 的发布时机,在 11 月和 12 月假日购物季之前推出顶级 RTX 5090 和 5080 是最合理的。
这里也有很多历史先例。Ada Lovelace RTX 40 系列 GPU于2022 年 10 月首次亮相。Ampere RTX 30 系列 GPU于 2020 年 9 月首次亮相。在此之前,RTX 20 系列于两年前的 2018 年 9 月推出,GTX 10 系列于 2016 年 5 月/6 月推出,GTX 900 系列于 2014 年 9 月推出。这意味着 Nvidia 大约每两年就会推出一次新的 GPU 架构,整整十年来,我们认为 Nvidia 现在没有理由改变策略。
这不仅仅是关于两年的消费级 GPU 节奏。Nvidia于 2022 年 3 月在其年度 GPU 技术大会 (GTC) 上首次披露了Hopper H100 架构的核心细节,Ada Lovelace 将于 2024 年 10 月发布。2020 年 5 月,它首次发布了Ampere A100 架构,几个月后又发布了消费者版本。2018 年也发生了同样的事情,当时推出了 Volta V100 和 Turing,2016 年推出了Tesla P100和 Pascal。因此,在过去四代中,我们首先了解了数据中心和 AI GPU,然后是消费者 GPU 在同一年晚些时候发布和推出。现在,Nvidia 再次在 GTC 上发布了Blackwell B200 架构,可以肯定地说,我们将在今年秋天听到有关消费者版本的消息。
不过,根据最新消息,Blackwell B200 已推迟到 2025 年。由于这一变化,其他所有事情也完全有可能被推迟。著名泄密者kopite7kimi 认为消费者显卡将于 1 月在 CES 2025 上发布。与之前的预期以及历史先例相比,这将是一个延迟,而且据我们所知,Nvidia 从未在CES上推出过新的 GPU 架构。然而,由于目前 RTX 4090 的竞争对手很少,而且数据中心部件的推出力度更大,2024 年末的发布肯定不是板上钉钉的事。
另一个因素仍然是 AI 工作负载,我们可以看到使用相同 GPU 的专业显卡会率先推出消费级显卡。Nvidia 目前的 RTX Ada Generation 专业级 GPU 的价格通常是使用相同芯片的消费级显卡的三到四倍,内存也是消费级显卡的两倍。考虑到创建新架构所需的研发成本,不难想象 Nvidia 选择优先考虑 AI 和数据中心模型而不是消费级显卡的场景。
我们不知道 Nvidia 计划为下一代 Blackwell 部件推出的具体名称或型号。我们相信我们将拥有 RTX 5090、RTX 5080、RTX 5070 和 RTX 5060 显卡,以及 Ti 和/或 Super 变体的某种组合。毫无疑问,其中一些变体将在首次发布后约一年的中期更新期间推出。我们还想知道 Nvidia 是否会推出 RTX 5050 GPU——它在台式机上跳过了 40 系列和 20 系列的这一级别,尽管后者拥有 GTX 1660 和 1650 级 GPU。
根据过去的模式,我们预计顶级 RTX 5090 和 5080 将首先上市,要么在今年年底,要么在 2025 年初。然后我们将看到一张 5070 级卡(可能带有 Ti 或 Super 后缀),然后在第一批 GPU 发布后约六个月看到 5060 级。无论第一批 Blackwell GPU 何时上市,我们都可以期待看到典型的错开发布时间表。
台积电4NP,精炼4nm Nvidia
GTC 2024 上一个令人惊讶的公告是,Blackwell B200 将使用台积电 4NP 节点——“4nm Nvidia Performance”,或者基本上是 N4P 节点的调整/微调变体。虽然工艺名称已经与物理特性基本脱节,但许多人预计 Nvidia 将转向台积电尖端 N3 工艺技术的改良版本。相反,它选择改进现有的 4N 节点,该节点在过去两年中已用于 Hopper 和 Ada Lovelace GPU。
走这条路肯定会节省一些成本,尽管台积电没有披露与其各个合作伙伴的合同定价协议。Blackwell B200 还使用双芯片解决方案,两个相同的芯片通过 10 TB/s NV-HBI(Nvidia 高带宽接口)连接。也许 Nvidia 只是认为它不需要为这一代转向 3nm 级节点。
然而,这为 AMD 甚至英特尔打开了大门,它们有可能转向更新、更先进的工艺节点,将更高效的晶体管塞进更小的芯片中。Nvidia 对 RTX 30 系列也采取了类似的方法,使用成本更低的三星 8N 工艺,而不是更新、更好的台积电 N7。看看这是否会对各种下一代 GPU 的堆叠产生重大影响,将会很有趣。
当然,Blackwell B200 版本也有可能使用台积电 4NP,而消费级芯片使用不同的节点。这在很大程度上取决于数据中心和消费级版本之间共享的核心架构有多少,以及 Nvidia 是否认为多元化是有益的。这里有使用不同节点甚至制造商的先例,因为 Ampere A100 使用台积电 N7,而 RTX 30 系列芯片使用三星 8N。GTX 10 系列 Pascal GP107 和 GP108 也是在三星的 14LPP 上制造的,而 GP102、GP104 和 GP106 则是在台积电 16FF 上制造的。
下一代 GDDR7 内存
人们早就预料到,消费级和专业级(即严格来说并非数据中心级) Blackwell GPU 将转向GDDR7 显存。GTC 2024 的所有迹象都表明,GDDR7 将在年底前为下一代 GPU 做好准备。事实上,三星和 SK 海力士在 GTC 上展示了 GDDR7 芯片,美光证实 GDDR7 也在生产中。
当前一代 RTX 40 系列 GPU 使用 GDDR6X 和 GDDR6 显存,主频从 17Gbps 到 23Gbps。GDDR7 的目标速度高达 36Gbps,比 GDDR6X 高 50%,比普通 GDDR6 高 80%。SK 海力士表示它甚至会有 40Gbps 芯片,不过这些芯片的具体上市时间表并未详细说明。无论如何,这将为各个级别的内存带宽提供急需的提升。
我们不知道 Nvidia 是否真的会推出主频为 36Gbps 的显存显卡。过去,它使用 24Gbps GDDR6X 芯片,但主频为 22.4Gbps 或 23Gbps——而一些 24Gbps 的 Micron 芯片在我们测试的各种 RTX 4090 显卡中显然被降频到了 21Gbps。因此,Nvidia 可以使用 36Gbps 的显存,但只能以 32Gbps 的速度运行。这仍然是带宽的一个健康提升。
在 36Gbps 下,384 位 GDDR7 显存接口可以提供 1728 GB/s 的带宽。这比我们目前在 RTX 4090 上获得的带宽高出 71%。256 位接口将提供 1152 GB/s,而 4080 Super 为 736 GB/s——增长了 57%。192 位显卡将拥有 864 GB/s,甚至 128 位显卡的原始带宽也高达 576 GB/s。Nvidia 甚至可能创建带宽为 432 GB/s 的 96 位接口。
我们还预计 Nvidia 将继续在 Blackwell 中使用大型 L2 缓存。这将提供更有效的内存带宽——每次缓存命中都意味着不需要进行内存访问。以 50% 的缓存命中率为例,这将使有效内存带宽翻倍,但请注意,命中率因游戏和设置而异,尤其是更高的分辨率会降低命中率。GDDR7
还可能解决内存容量与接口宽度的问题。在 GTC 上,我们被告知 16Gb 芯片(2GB)正在生产中,但 24Gb(3GB)芯片也即将问世。容量非 2 的更大芯片可能要到 2025 年才能准备好,但这些芯片对于低端部件来说更为重要。顺便说一句,这是支持 2025 年初发布的另一个观点,因为这意味着顶级型号的 VRAM 容量可能会增加 50%。
尽管如此,消费级显卡并不急需超过 24GB 的内存,不过我们可能会看到 32GB 的 RTX 5090(具有 512 位接口)。对于具有 256 位接口的游戏来说,即使是 16GB 通常也足够了。另一方面,专业 GPU 通常用于大型 3D 模型以及 AI 工作负载,在这些工作负载中,拥有更多的 VRAM 将是一个很大的优势。512 位接口,PCB 两侧都有 3GB 芯片,可以产生具有 96GB 内存的专业 RTX 6000 Blackwell Generation。
更重要的是,24Gb 芯片的可用性意味着 Nvidia(以及 AMD 和英特尔)可以在 192 位接口上放置 18GB VRAM,在 128 位接口上放置 12GB,在 96 位接口上放置 9GB,所有这些都将 VRAM 放在 PCB 的一侧。我们甚至可以看到 256 位接口的 24GB 显卡,以及 384 位接口的 36GB 显卡——专业显卡的容量是这个数字的两倍。定价肯定会影响 VRAM 容量,但我们更有可能在消费级 GPU 上看到 24Gb GDDR7 内存芯片,而不是“是否”的问题。
Blackwell 架构更新
Blackwell 架构几乎肯定会包含上一代 Ada Lovelace 架构的各种更新和增强,但目前我们确切知道的内容可以用两个词来概括:不多。但每一代 Nvidia GPU 都至少包含一些架构升级,我们可以期待这一轮也会出现同样的情况。Nvidia
在每一代 RTX 中都提高了潜在的光线追踪性能,Blackwell 似乎很可能会延续这一趋势。随着越来越多的游戏(如Alan Wake 2和Cyberpunk 2077)推动全路径追踪——更不用说模组制作者使用RTX Remix增强具有全路径追踪的旧 DX10 时代游戏的潜力——对更高光线追踪吞吐量的需求就更大了。可能还会有其他以 RT 为中心的更新,就像 Ada 提供的 SER(着色器执行重新排序)、OMM(不透明度微图)和 DMM(位移微网格)一样。但这些变化可能是什么目前尚不清楚。
我们所知道的是,数据中心 Blackwell B200 GPU 再次重新设计了张量核心,为 FP4 和 FP6 数字格式提供原生支持。这些将主要用于 AI 推理,考虑到消费级 GPU 将与专业卡一起承担双重任务,可以肯定的是,所有 Blackwell 芯片也将支持 FP4 和 FP6。(作为相关示例,Ada 在其张量核心中添加了与 Hopper 相同的 FP8 支持。)
Blackwell 还会带来哪些其他架构变化?如果我们正确地认为 Nvidia 坚持使用 TSMC 4NP 作为消费级部件,我们预计不会有大规模的改动。仍将有一个大型 L2 缓存,用于 DLSS 3 帧生成的增强型 OFA(光流加速器)当然会保留。它甚至可能会进行一些调整以改进它,尽管我们必须拭目以待。
Blackwell B200 的一个潜在暗示是,最快的解决方案可能会带来什么。Nvidia 创建了 NV-HBI,将两个相同的芯片连接在一起形成一个巨大的 GPU。这不是 SLI,而是一种具有巨大芯片间带宽的 chiplet 式方法,因此两个芯片在功能上可以充当单个 GPU。NV-HBI 是否也会出现在消费级 GPU 上?我们认为这是一个合理的可能性——可能不是在规格较低的芯片上,但肯定会在最大的芯片和最高级别的型号上。
无论是图形还是更一般的工作负载,原始计算几乎肯定会大幅增加,但可能更接近 30% 的增幅,而不是 50%。例如,RTX 4080 提供 40 TeraFLOPS 的 FP32 计算,而 3080 提供 30 TeraFLOPS,增幅为 33%;而 4090 提供 83 TeraFLOPS,而 3090 提供 40 TeraFLOPS,增幅高达 107%。也许 Nvidia 也会在 RTX 5090 上“大展宏图”,同时在其他方面做出较小的改进,但我们还得拭目以待。
RTX 50 系列定价
RTX 50 系列 GPU 的价格是多少?坦率地说,考虑到目前的市场状况,几乎没有理由期望 Nvidia 会降低相对于当前 RTX 40 系列 GPU 的价格。Nvidia 会将这些显卡的价格定得尽可能高,只要它认为市场可以接受。由于潜在的更高 AI 性能和非游戏领域的需求增加,如果下一代产品采用与当前一代相同的定价结构,我们可能会很幸运。
同时,我们希望代际定价不会上涨。“降级” RTX 4080 Super 售价 1,000 美元意味着特定级别的 GPU 现在比 RTX 2080 Super 时代贵 43%。当然,我们中间也有“699 美元”的 RTX 3080 10GB 和“1,199 美元”的 RTX 3080 Ti,当时由于 GPU 加密挖矿的盛行以及 Covid-19 的影响,价格一片混乱。值得庆幸的是,虽然目前使用 GPU 挖掘某些加密货币在技术上是有利可图的,但WhatToMine估计 RTX 4090 的每日收入远低于 1 美元——这意味着按照目前的速度和价格,需要十年以上才能实现收支平衡。(没有人应该这样做,因为 GPU 在收支平衡之前更有可能死亡。)
预算 GPU 领域也基本消亡了。集成显卡已经达到了“足够快”的程度,可以处理大多数常见工作负载,甚至包括适度的游戏——对于移动处理器来说尤其如此,而桌面选项通常要弱得多。上一个真正瞄准预算领域的新 GPU 是 AMD 相当不起眼的RX 6500 XT和RX 6400——自 2019 年推出GTX 1650 Super以来,Nvidia 还没有制造过新的低于 200 美元的 GPU (除非你想算上GTX 1630的悲剧)。
这意味着,对于专用的台式机显卡来说,我们现在生活在这样一个世界里:“预算”意味着 300 美元左右,“主流”意味着 400-600 美元,“高端”是指价格接近 1,000 美元的 GPU,而“发烧友”部分则瞄准 1,500 美元或更高。或者至少,这似乎是 Nvidia 对这种情况的看法。AMD 的 GPU 往往更实惠一些,尤其是从市价来看,但 Nvidia 至少在过去四年里一直保持着较高的定价结构。
当 Blackwell GPU 上市时,价格会是好是坏?如果所有产品的价格都比上一代贵,请不要感到惊讶,尤其是带有工厂超频功能的定制 AIB 合作伙伴型号。价格是否保持高位可能在很大程度上取决于 AI 泡沫是否破裂。
Blackwell 推测规范
鉴于我们迄今为止所说的一切,希望可以清楚的是,目前关于 Blackwell 的官方信息非常少。2022年的 Nvidia 黑客攻击给了我们 Blackwell 这个名字和一些潜在的代号,但那是两年多前的事了,这段时间里很多事情都可能发生变化。另外,关于 Blackwell 的细节一开始就很少。
然而,与每次重大的 GPU 架构更新一样,到处都有大量谣言和所谓的泄密事件。一些人认为他们有内部消息,另一些人似乎只是猜测。仅举几个最近的例子,一次“泄密”称我们应该预计Blackwell GB202 将在 2023 年 11 月拥有 384 位内存接口,而 2024 年 3 月的一次最新泄密称Blackwell GB202 将拥有 512 位接口。根据其他“泄密”, 512 位接口最近已被确定为最有可能的解决方案,但其中一些可能是一厢情愿的想法,而不是事实。
另一个值得深思的问题是,我们之前提到的 Blackwell B200 的 NV-HBI 双芯片解决方案。也许顶级 Blackwell GB202 将采用相同的方法,通过 NV-HBI 连接两个 GB203 芯片。这将使 Nvidia 能够控制最快芯片的实际芯片尺寸,同时提供更高水平的性能。
Blackwell GPU 规格推测,见下面链接:
https://www.tomshardware.com/pc-components/gpus/nvidia-blackwell-rtx-50-series-gpus-everything-we-know
我们暂时将 GB202 的两个潜在变体纳入我们的推测规格表中,以及其他地方的估计名称和规格。大量的问号应该清楚地表明我们目前没有任何确凿的信息。
再次强调,请对上述信息持怀疑态度 — 认真地讲,把盐瓶倒掉!我们基本上插入了一些看似合理的数字,并将它们塞入通常的 Nvidia 公式中,其中给出了给定数量的 SM,然后根据通常的 128 个 CUDA、1 个 RT 和 4 个张量核心,给出了 CUDA、RT 和张量核心数量。每个 SM 还有(传统上)四个 TMU(纹理映射单元)。Nvidia 可以很容易地调整启用的 SM 数量,因此最终规格可能要到发布前几个月才能确定。
许多潜在规格来自最近的传言,这些传言可能只是猜测。虽然巨大的 GB202 芯片似乎仍然存在,但有趣的是,它的 SM 数量是所谓的 GB203 的两倍多。这是一个非常大的差距,几乎大得难以置信。鉴于我们在 Blackwell B200 上看到的情况,我仍然偏向于 GB202 使用两个融合在一起的 GB203 芯片的想法。其他方面基本上是使用 Nvidia 目前在 RTX 40 系列卡上拥有的任何内容的占位符。例如,这主要适用于 L2 缓存大小、功率要求和定价。我们目前不声称拥有实际规格的内部信息,据我们所知,也没有任何知名人士泄露任何真正官方的核心数量。
目前,时钟速度估计是 GPU 时钟上的静态 2.5 GHz 和 GDDR7 时钟上的 36Gbps——显然仍然是 GDDR6 GB207 芯片上的 20Gbps。这也是根据最近的“泄漏”得出的。我们真的希望在所有具有 192 位或更窄内存接口的 GPU 上看到 3GB 芯片,以增加 VRAM 容量。#fingers-crossed
随着谣言的发展,我们将在未来几个月甚至几年内更新上表。最终,我们将获得官方的部件名称和规格。我们几乎肯定会得到远超五种的不同显卡,但目前猜测它们会落在哪里是没有意义的。请注意,有十种不同的 RTX 40 系列台式机 GPU 和十二种不同的 RTX 30 系列台式机变体(将 3060 12GB / 8GB 和 3050 8GB / 6GB 视为不同型号)。
16 电源连接器
在16 针熔毁惨败困扰第一波 RTX 4090 卡之后,许多人可能希望 Nvidia 放弃新的 PCI-SIG 标准。我们敢打赌,这不会发生,尽管改用改进的ATX 12V-2x6 连接器有望消除任何潜在问题。
有趣的是,RTX 40 系列并不是第一代配备 16 针连接器的 GPU。RTX 30 系列从 2020 年开始使用 12 针适配器(没有 12VHPWR 的额外四个感应针)。我们没有听到很多关于 3090 和 3080 适配器熔毁的故事,但当时大多数卡的 TGP 都远低于 400W。RTX 3090 Ti GPU 是第一批使用较新的 16 针连接器的 GPU,但同样没有出现大量熔断报告。随着 RTX 40 系列广泛使用 16 针,这意味着 Blackwell 将成为至少部分采用该标准的第三代 Nvidia GPU。4090
熔断问题的关键因素之一似乎是通过一个相对紧凑的连接器拉动 450W 或更高的功率。我们不禁想知道 Nvidia 会对 Blackwell 提出多高的功率要求,但很难想象超过 600W 的功率。即便如此,使用两个各提供 300W 的 16 针连接器在我们看来比尝试使用单个连接器更明智。我们得看看会发生什么。
长期以来一直有传言说会有一张新的 Titan 级卡,首先是 Ada,现在是 Blackwell。这样的 GPU 可能是 Nvidia 制造的第一款配备双 16 针连接器的显卡,也可能配备四槽冷却器。如果您没有 ATX 3.0 电源,您仍然必须使用笨重且难看的 8 针至 16 针适配器。
未来的 GPU 格局
Nvidia 不会是下一代显卡的唯一竞争对手。有大量证据表明,英特尔的 Battlemage也将在今年秋季发布,AMD RDNA 4也将在某个时候问世——也许不是今年,但我们预计最迟会在 2025 年初看到它。(一旦有更多数据浮出水面,我们将发布有关这两款显卡的更详细文章,敬请期待。)
但是,虽然肯定会有竞争,但 Nvidia 在过去十年中一直主导着 GPU 领域。目前,Steam 硬件调查显示 Nvidia 占据了显卡市场的 78%,AMD 占据 14.6%,英特尔仅占 7.2%(0.12% 为“其他”)。然而,这甚至还没有说明全部情况。AMD
和英特尔都生产集成显卡,可以肯定的是,它们各自市场份额的很大一部分来自没有专用 GPU 的笔记本电脑和台式机。AMD 专用 GPU 的最高市场份额来自 RX 580,排名第 31 位,占 0.81%。调查中甚至没有列出英特尔的专用 GPU。对于过去三代 AMD 和 Nvidia 专用 GPU,Steam 调查显示 Nvidia 拥有 92.6% 的市场份额,而 AMD 仅占 7.4%。诚然, Valve
收集数据 的细节充其量也只是晦涩难懂,而且 AMD 的表现可能比调查显示的要好。尽管如此,在排行榜前列还是出现了 Nvidia 显卡的绿色浪潮。JPR 最近的报告称,Nvidia 控制了 88% 的附加 GPU 市场,而 AMD 仅占 12%,这是目前主导地位的另一个例子。 我们从英特尔那里听到的消息表明,它打算让 Battlemage 在图形领域的主流和预算部分展开更多竞争。我们指的是 200 美元到 600 美元的价格范围。然而,英特尔最近没有发表太多言论,所以这种情况可能会改变。目前,AMD 肯定在性能、驱动程序和效率方面与 Nvidia 竞争得更好,但我们仍在等待其GPU 体验“Ryzen 时刻” ——到目前为止,GPU 芯片还没有取得惊人的成功。 目前,Nvidia 提供了更高的整体性能和更高的光线追踪性能。它还在人工智能领域占据主导地位,拥有相关技术,如 DLSS(包括DLSS 3.5 光线重建)、广播和其他功能。目前,Nvidia 的竞争注定要失败,AMD 和英特尔需要付出很大努力才能缩小差距并获得显著的市场份额,至少在集成显卡领域之外是这样。另一方面,Nvidia 的高价格和对非游戏市场人工智能的更大关注可能会给其竞争对手留下空间。我们将在今年晚些时候看到这些芯片的落脚点。
参考链接
https://www.tomshardware.com/pc-components/gpus/nvidia-blackwell-rtx-50-series-gpus-everything-we-know
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3853内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者