英伟达新GPU强是真强,贵是真贵
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank)编译自tomshardware,谢谢。
《巴伦周刊》资深作家@firstadopter援引汇丰银行分析师的话称,用于人工智能应用的 Nvidia Blackwell GPU 将比该公司基于 Hopper 的处理器更贵。分析师称,一颗 GB200 超级芯片(CPU+GPU)的成本可能高达 70,000 美元。
然而,Nvidia 可能更倾向于销售基于 Blackwell GPU 的服务器,而不是单独销售芯片,特别是考虑到 B200 NVL72 服务器预计每台成本高达 300 万美元。
汇丰银行估计,Nvidia 的“入门级”B100 GPU 的平均售价(ASP)将在 30,000 美元至 35,000 美元之间,至少在 Nvidia H100 的价格范围内。据报道,功能更强大的 GB200 将单个 Grace CPU 与两个 B200 GPU 结合在一起,售价在 60,000 至 70,000 美元之间。让我们面对现实吧:实际上最终的成本可能会比这高得多,因为这些只是分析师的估计。
基于 Nvidia 设计的服务器将会更加昂贵。配备 36 GB200 超级芯片(18 个 Grace CPU 和 36 个增强型 B200 GPU)的 Nvidia GB200 NVL36 平均售价可能为 180 万美元,而配备 72 GB200 超级芯片(36 个 CPU 和 72 个 GPU)的 Nvidia GB200 NVL72 价格可能约为数百万美元。
当 Nvidia 首席执行官 Jensen 在今年的 GTC 2024 上展示 Blackwell 数据中心芯片时,很明显其意图是移动整个机架的服务器。Jensen 反复表示,当他想到 GPU 时,他现在想到的是 NVL72 机架。整个设置通过高带宽连接集成,充当大型 GPU,提供 13,824 GB 的总 VRAM——这是训练更大的 LLM 的关键因素。
销售整个系统而不是独立的 GPU/超级芯片使 Nvidia 能够吸收系统集成商赚取的部分溢价,这将增加其收入和盈利能力。考虑到 Nvidia 的竞争对手 AMD 和 Intel 的 AI 处理器(例如 Instinct MI300 系列、Gaudi 3)的吸引力非常缓慢,Nvidia 肯定可以以巨大的溢价出售其 AI 处理器。因此,据称汇丰银行估算的价格并不特别令人惊讶。
强调 H200 和 GB200 之间的差异也很重要。H200 的单个 GPU 定价已高达 40,000 美元。GB200 将有效地将 GPU 数量增加四倍(四个硅芯片,每个 B200 两个),并为所谓的 Superchip 添加 CPU 和大型 PCB。单个 GB200 Superchip 的原始计算为 5 petaflops FP16(10 petaflops,稀疏),而 H200 上的原始计算为 1/2 petaflops(密集/稀疏)。这大约是计算量的五倍,甚至没有考虑其他架构升级。
应该记住,数据中心级硬件的实际价格始终取决于单个合同、基于订购的硬件数量和其他谈判。因此,在盐的帮助下获取这些估计数字。像亚马逊和微软这样的大买家可能会获得巨大的折扣,而小客户可能需要支付比汇丰银行报告的更高的价格。
NVIDIA Blackwell 平台,突破界限
随着加速计算和人工智能的进步推动世界下一个重大突破,科学计算和基于物理的模拟有望在造福人类的领域迈出巨大步伐。
NVIDIA 在 3 月份的 GTC 上推出了NVIDIA Blackwell 平台,该平台承诺在万亿参数大语言模型 (LLM) 上提供生成式 AI,其成本和能耗比 NVIDIA Hopper 架构低 25 倍。
Blackwell 对人工智能工作负载具有强大的影响,其技术能力还可以帮助在所有类型的科学计算应用程序(包括传统的数值模拟)中提供发现。
通过降低能源成本,加速计算和人工智能推动可持续计算。许多科学计算应用程序已经受益。与传统的基于 CPU 的系统和其他系统相比,模拟天气的成本可降低 200 倍,能耗降低 300 倍,而数字孪生模拟的成本降低 65 倍,能耗降低 58 倍。
科学计算和基于物理的模拟通常依靠所谓的双精度格式或FP64(浮点)来解决问题。Blackwell GPU 的FP64 和 FP32 FMA(融合乘加)性能比 Hopper 高出 30%。
基于物理的模拟对于产品设计和开发至关重要。从飞机和火车到桥梁、硅芯片和药品——在模拟中测试和改进产品可以为研究人员和开发人员节省数十亿美元。
如今,专用集成电路 (ASIC) 几乎完全是在 CPU 上设计的,工作流程漫长而复杂,包括用于识别电压和电流的模拟分析。
但这种情况正在改变。Cadence SpectreX模拟器是模拟电路设计求解器的示例之一。SpectreX 电路仿真预计在 GB200 Grace Blackwell Superchip(连接 Blackwell GPU 和 Grace CPU)上运行速度比传统 CPU 快 13 倍。
此外,GPU 加速的计算流体动力学 (CFD) 已成为一种关键工具。工程师和设备设计师使用它来预测设计的行为。Cadence Fidelity 运行 CFD 仿真,预计在 GB200 系统上的运行速度比传统 CPU 驱动的系统快 22 倍。凭借并行可扩展性和每个 GB200 NVL72 机架 30TB 的内存,可以前所未有地捕获流细节。
在另一个应用中,Cadence Reality 的数字孪生软件可用于创建物理数据中心的虚拟副本,包括其所有组件 - 服务器、冷却系统和电源。这种虚拟模型允许工程师在现实世界中实施之前测试不同的配置和场景,从而节省时间和成本。
Cadence Reality 的神奇之处在于基于物理的算法,该算法可以模拟热量、气流和电力使用如何影响数据中心。这有助于工程师和数据中心运营商更有效地管理容量、预测潜在的运营问题并做出明智的决策,以优化数据中心的布局和运营,从而提高效率和容量利用率。使用 Blackwell GPU,这些模拟的运行速度预计比 CPU 快 30 倍,从而提供更快的时间线和更高的能源效率。
新的 Blackwell 加速器和网络将为高级仿真带来性能飞跃。
NVIDIA GB200 开启了高性能计算 (HPC) 的新时代。其架构采用第二代transformer引擎,经过优化可加速LLM的推理工作负载。
与 H100 一代相比,这使得资源密集型应用程序(例如 1.8 万亿参数 GPT-MoE(生成式预训练transformer混合专家)模型)的速度提高了 30 倍,从而为 HPC 带来了新的可能性。通过使LLM能够处理和解读大量科学数据,高性能计算应用程序可以更快地获得有价值的见解,从而加速科学发现。
桑迪亚国家实验室正在构建一个用于并行编程的LLM copilot。传统人工智能可以有效地生成基本的串行计算代码,但当涉及到 HPC 应用程序的并行计算代码时,LLM可能会犹豫不决。桑迪亚研究人员正在通过一个雄心勃勃的项目来正面解决这个问题——在 Kokkos 中自动生成并行代码,Kokkos 是一种由多个国家实验室设计的专用编程语言,用于在世界上最强大的超级计算机中的数万个处理器上运行任务。
桑迪亚正在使用一种称为检索增强生成(RAG)的人工智能技术,它将信息检索功能与语言生成模型结合起来。该团队正在创建 Kokkos 数据库,并使用 RAG 将其与 AI 模型集成。
初步结果是有希望的。桑迪亚的不同 RAG 方法已经展示了用于并行计算应用程序的自主生成的 Kokkos 代码。通过克服基于人工智能的并行代码生成的障碍,桑迪亚的目标是在全球领先的超级计算设施中释放 HPC 的新可能性。其他例子包括可再生能源研究、气候科学和药物发现。
量子计算为聚变能源、气候研究、药物发现和许多其他领域开启了时间机器之旅。因此,研究人员正在努力在基于 NVIDIA GPU 的系统和软件上模拟未来的量子计算机,以比以往更快地开发和测试量子算法。
NVIDIA CUDA-Q 平台通过CPU、GPU 和QPU(量子处理单元)协同工作的统一编程模型,支持量子计算机模拟和混合应用程序开发。
CUDA-Q 正在加速巴斯夫化学工作流程、石溪分校高能和核物理以及 NERSC 量子化学的模拟。
NVIDIA Blackwell 架构将有助于将量子模拟推向新的高度。利用最新的 NVIDIA NVLink 多节点互连技术有助于更快地传输数据,从而为量子模拟带来加速优势。
使用 RAPIDS 进行数据处理在科学计算中很流行。Blackwell 引入了硬件解压缩引擎来解压缩压缩数据并加快 RAPIDS 中的分析速度。
解压缩引擎的性能提升高达 800GB/s,使 Grace Blackwell 在 Sapphire Rapids 上的执行速度比 CPU 快 18 倍,在查询基准测试方面比 NVIDIA H100 Tensor Core GPU 快 6 倍。
该引擎通过 8TB/s 的高内存带宽和 Grace CPU 高速 NVLink 芯片到芯片 (C2C) 互连实现高速数据传输,加快了数据库查询的整个过程。Blackwell 在数据分析和数据科学用例中提供一流的性能,可加速数据洞察并降低成本。
NVIDIA Quantum-X800 InfiniBand 网络平台为科学计算基础设施提供最高的吞吐量。
它包括 NVIDIA Quantum Q3400 和 Q3200 交换机以及 NVIDIA ConnectX-8 SuperNIC,带宽是上一代产品的两倍。Q3400 平台通过 NVIDIA 的可扩展分层聚合和缩减协议 (SHARPv4) 提供高出 5 倍的带宽容量和 14.4Tflops 的网络内计算能力,与上一代相比提高了 9 倍。
性能飞跃和能效意味着科学计算工作负载完成时间和能源消耗的显着减少。
参考链接
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3766期内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者