Bendi新闻
>
英伟达新GPU强是真强,贵是真贵

英伟达新GPU强是真强,贵是真贵

7月前

👆如果您希望可以时常见面,欢迎标星🌟收藏哦~


来源:内容由半导体行业观察(ID:icbank)编译自tomshardware,谢谢。


《巴伦周刊》资深作家@firstadopter援引汇丰银行分析师的话称,用于人工智能应用的 Nvidia Blackwell GPU 将比该公司基于 Hopper 的处理器更贵。分析师称,一颗 GB200 超级芯片(CPU+GPU)的成本可能高达 70,000 美元。


然而,Nvidia 可能更倾向于销售基于 Blackwell GPU 的服务器,而不是单独销售芯片,特别是考虑到 B200 NVL72 服务器预计每台成本高达 300 万美元。


汇丰银行估计,Nvidia 的“入门级”B100 GPU 的平均售价(ASP)将在 30,000 美元至 35,000 美元之间,至少在 Nvidia H100 的价格范围内。据报道,功能更强大的 GB200 将单个 Grace CPU 与两个 B200 GPU 结合在一起,售价在 60,000 至 70,000 美元之间。让我们面对现实吧:实际上最终的成本可能会比这高得多,因为这些只是分析师的估计。


基于 Nvidia 设计的服务器将会更加昂贵。配备 36 GB200 超级芯片(18 个 Grace CPU 和 36 个增强型 B200 GPU)的 Nvidia GB200 NVL36 平均售价可能为 180 万美元,而配备 72 GB200 超级芯片(36 个 CPU 和 72 个 GPU)的 Nvidia GB200 NVL72 价格可能约为数百万美元。


当 Nvidia 首席执行官 Jensen 在今年的 GTC 2024 上展示 Blackwell 数据中心芯片时,很明显其意图是移动整个机架的服务器。Jensen 反复表示,当他想到 GPU 时,他现在想到的是 NVL72 机架。整个设置通过高带宽连接集成,充当大型 GPU,提供 13,824 GB 的总 VRAM——这是训练更大的 LLM 的关键因素。


销售整个系统而不是独立的 GPU/超级芯片使 Nvidia 能够吸收系统集成商赚取的部分溢价,这将增加其收入和盈利能力。考虑到 Nvidia 的竞争对手 AMD 和 Intel 的 AI 处理器(例如 Instinct MI300 系列、Gaudi 3)的吸引力非常缓慢,Nvidia 肯定可以以巨大的溢价出售其 AI 处理器。因此,据称汇丰银行估算的价格并不特别令人惊讶。


强调 H200 和 GB200 之间的差异也很重要。H200 的单个 GPU 定价已高达 40,000 美元。GB200 将有效地将 GPU 数量增加四倍(四个硅芯片,每个 B200 两个),并为所谓的 Superchip 添加 CPU 和大型 PCB。单个 GB200 Superchip 的原始计算为 5 petaflops FP16(10 petaflops,稀疏),而 H200 上的原始计算为 1/2 petaflops(密集/稀疏)。这大约是计算量的五倍,甚至没有考虑其他架构升级。


应该记住,数据中心级硬件的实际价格始终取决于单个合同、基于订购的硬件数量和其他谈判。因此,在盐的帮助下获取这些估计数字。像亚马逊和微软这样的大买家可能会获得巨大的折扣,而小客户可能需要支付比汇丰银行报告的更高的价格。


NVIDIA Blackwell 平台,突破界限


随着加速计算和人工智能的进步推动世界下一个重大突破,科学计算和基于物理的模拟有望在造福人类的领域迈出巨大步伐。


NVIDIA 在 3 月份的 GTC 上推出了NVIDIA Blackwell 平台,该平台承诺在万亿参数大语言模型 (LLM) 上提供生成式 AI,其成本和能耗比 NVIDIA Hopper 架构低 25 倍。


Blackwell 对人工智能工作负载具有强大的影响,其技术能力还可以帮助在所有类型的科学计算应用程序(包括传统的数值模拟)中提供发现。


通过降低能源成本,加速计算和人工智能推动可持续计算。许多科学计算应用程序已经受益。与传统的基于 CPU 的系统和其他系统相比,模拟天气的成本可降低 200 倍,能耗降低 300 倍,而数字孪生模拟的成本降低 65 倍,能耗降低 58 倍。


科学计算和基于物理的模拟通常依靠所谓的双精度格式或FP64(浮点)来解决问题。Blackwell GPU 的FP64 和 FP32 FMA(融合乘加)性能比 Hopper 高出 30%。


基于物理的模拟对于产品设计和开发至关重要。从飞机和火车到桥梁、硅芯片和药品——在模拟中测试和改进产品可以为研究人员和开发人员节省数十亿美元。


如今,专用集成电路 (ASIC) 几乎完全是在 CPU 上设计的,工作流程漫长而复杂,包括用于识别电压和电流的模拟分析。


但这种情况正在改变。Cadence SpectreX模拟器是模拟电路设计求解器的示例之一。SpectreX 电路仿真预计在 GB200 Grace Blackwell Superchip(连接 Blackwell GPU 和 Grace CPU)上运行速度比传统 CPU 快 13 倍。


此外,GPU 加速的计算流体动力学 (CFD) 已成为一种关键工具。工程师和设备设计师使用它来预测设计的行为。Cadence Fidelity 运行 CFD 仿真,预计在 GB200 系统上的运行速度比传统 CPU 驱动的系统快 22 倍。凭借并行可扩展性和每个 GB200 NVL72 机架 30TB 的内存,可以前所未有地捕获流细节。


在另一个应用中,Cadence Reality 的数字孪生软件可用于创建物理数据中心的虚拟副本,包括其所有组件 - 服务器、冷却系统和电源。这种虚拟模型允许工程师在现实世界中实施之前测试不同的配置和场景,从而节省时间和成本。


Cadence Reality 的神奇之处在于基于物理的算法,该算法可以模拟热量、气流和电力使用如何影响数据中心。这有助于工程师和数据中心运营商更有效地管理容量、预测潜在的运营问题并做出明智的决策,以优化数据中心的布局和运营,从而提高效率和容量利用率。使用 Blackwell GPU,这些模拟的运行速度预计比 CPU 快 30 倍,从而提供更快的时间线和更高的能源效率。



新的 Blackwell 加速器和网络将为高级仿真带来性能飞跃。


NVIDIA GB200 开启了高性能计算 (HPC) 的新时代。其架构采用第二代transformer引擎,经过优化可加速LLM的推理工作负载。


与 H100 一代相比,这使得资源密集型应用程序(例如 1.8 万亿参数 GPT-MoE(生成式预训练transformer混合专家)模型)的速度提高了 30 倍,从而为 HPC 带来了新的可能性。通过使LLM能够处理和解读大量科学数据,高性能计算应用程序可以更快地获得有价值的见解,从而加速科学发现。


桑迪亚国家实验室正在构建一个用于并行编程的LLM copilot。传统人工智能可以有效地生成基本的串行计算代码,但当涉及到 HPC 应用程序的并行计算代码时,LLM可能会犹豫不决。桑迪亚研究人员正在通过一个雄心勃勃的项目来正面解决这个问题——在 Kokkos 中自动生成并行代码,Kokkos 是一种由多个国家实验室设计的专用编程语言,用于在世界上最强大的超级计算机中的数万个处理器上运行任务。


桑迪亚正在使用一种称为检索增强生成(RAG)的人工智能技术,它将信息检索功能与语言生成模型结合起来。该团队正在创建 Kokkos 数据库,并使用 RAG 将其与 AI 模型集成。


初步结果是有希望的。桑迪亚的不同 RAG 方法已经展示了用于并行计算应用程序的自主生成的 Kokkos 代码。通过克服基于人工智能的并行代码生成的障碍,桑迪亚的目标是在全球领先的超级计算设施中释放 HPC 的新可能性。其他例子包括可再生能源研究、气候科学和药物发现。



量子计算为聚变能源、气候研究、药物发现和许多其他领域开启了时间机器之旅。因此,研究人员正在努力在基于 NVIDIA GPU 的系统和软件上模拟未来的量子计算机,以比以往更快地开发和测试量子算法。


NVIDIA CUDA-Q 平台通过CPU、GPU 和QPU(量子处理单元)协同工作的统一编程模型,支持量子计算机模拟和混合应用程序开发。


CUDA-Q 正在加速巴斯夫化学工作流程、石溪分校高能和核物理以及 NERSC 量子化学的模拟。


NVIDIA Blackwell 架构将有助于将量子模拟推向新的高度。利用最新的 NVIDIA NVLink 多节点互连技术有助于更快地传输数据,从而为量子模拟带来加速优势。


使用 RAPIDS 进行数据处理在科学计算中很流行。Blackwell 引入了硬件解压缩引擎来解压缩压缩数据并加快 RAPIDS 中的分析速度。


解压缩引擎的性能提升高达 800GB/s,使 Grace Blackwell 在 Sapphire Rapids 上的执行速度比 CPU 快 18 倍,在查询基准测试方面比 NVIDIA H100 Tensor Core GPU 快 6 倍。


该引擎通过 8TB/s 的高内存带宽和 Grace CPU 高速 NVLink 芯片到芯片 (C2C) 互连实现高速数据传输,加快了数据库查询的整个过程。Blackwell 在数据分析和数据科学用例中提供一流的性能,可加速数据洞察并降低成本。

NVIDIA Quantum-X800 InfiniBand 网络平台为科学计算基础设施提供最高的吞吐量。


它包括 NVIDIA Quantum Q3400 和 Q3200 交换机以及 NVIDIA ConnectX-8 SuperNIC,带宽是上一代产品的两倍。Q3400 平台通过 NVIDIA 的可扩展分层聚合和缩减协议 (SHARPv4) 提供高出 5 倍的带宽容量和 14.4Tflops 的网络内计算能力,与上一代相比提高了 9 倍。


性能飞跃和能效意味着科学计算工作负载完成时间和能源消耗的显着减少。


参考链接

https://blogs.nvidia.com/blog/blackwell-scientific-computing/


https://www.tomshardware.com/pc-components/gpus/nvidias-next-gen-blackwell-ai-gpus-to-cost-up-to-dollar70000-fully-equipped-servers-range-up-to-dollar3000000-report




点这里👆加关注,锁定更多原创内容

END


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。



今天是《半导体行业观察》为您分享的第3766期内容,欢迎关注。


推荐阅读


EUV光刻机重磅报告,美国发布

碳化硅“狂飙”:追赶、内卷、替代

芯片巨头,都想“干掉”工程师!

苹果,玩转先进封装

GPU的历史性时刻!

大陆集团,开发7nm芯片

张忠谋最新采访:中国会找到反击方法

EUV光刻的新“救星”

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank


喜欢我们的内容就点“在看”分享给小伙伴哦

微信扫码关注该文公众号作者

来源:半导体行业观察

相关新闻

黄仁勋重磅发布!英伟达剧透新一代最强GPU,打破摩尔定律掀起新工业革命黄仁勋刚刚发布,英伟达最强GPU B200,首次采用Chiplet?OpenAI有望在今年夏季推出GPT-5;英伟达推出更强GPU芯片;马斯克宣布正式开源Grok-1|AIGC周观察第三十七期打造比英伟达 Blackwell更强的GPU英伟达高管科普:什么是GPU?详解最强AI芯片架构:英伟达Blackwell GPU究竟牛在哪?现场对话技术高管英伟达新架构以他名字致敬,天才数学家David Blackwell 是谁?茅台回应自制假茅台被鉴定为真;英伟达市值两日蒸发超1.4万亿元;昊铂汽车回应周琦怒怼是骗子;蔡磊进ICU妻子20天暴瘦十斤...英伟达官宣全面开源GPU内核驱动,两年迭代至最强版本!下一代Blackwell全用开源小模型崛起!Llama 3.1 8B参数减半性能更强,英伟达把剪枝和蒸馏玩明白了英伟达是AI革命的赢家?AI芯片战争:英伟达是科技之巅,还是下一个思科?狂涨的英伟达,是泡沫吗?超级AI即将诞生?史上最强超算9月上线,英伟达最强芯片加持英伟达最强AI芯片曝重大设计缺陷,中国特供版意外曝光!余承东:问界最安全,被黑只会让我们变强;英伟达曝大量 AI 新品,扎克伯格再演换装秀;人类活动导致一天时间变长 | 极客早知道在英伟达工作是什么体验?压力超大!英伟达会是又一个思科吗?黄仁勋自曝英伟达最强Rubin架构;优必选人形机器人进入东风柳汽开展造车工作;马斯克称将购买30万块AI芯片丨AI情报局英伟达股价是泡沫吗?英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑“王妈”致歉,前员工:塌房是意料之中;英伟达市值一夜暴增1.35万亿;蔡磊被指装病后发声;保时捷中国回应遭经销商逼宫...英伟达地表最强,黄教主被称作AI界“霉霉”财经早参丨英伟达推出最强AI芯片;英国否认国王去世;许家印被罚4700万,终身市场禁入;三只羊、东方甄选回应“梅菜扣肉”事件
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。