Bendi新闻
>
H100/H200、B100、X100 GPU架构演进总结

H100/H200、B100、X100 GPU架构演进总结

8月前

前篇内容请参看文章:Nvidia AI芯片路线图分析与解读Nvidia芯片工艺洞察和推演Nvidia AI芯片架构分析
基于以下两个前提:每一代AI芯片的存储、计算和互联比例保持大致一致,且比上一代提升1.5到2倍以上;工程工艺演进是渐进且可预测的,不存在跳变,至少在2025年之前不会发生跳变。因此,可以对2023年的H100、2024年的B100和2025年的X100的架构进行推演总结。
对于工程工艺的基本假设如下:到2025年,工艺将保持在3nm水平,但工艺演进给逻辑器件带来的收益预计不会超过50%。同时,先进封装技术预计将在2025年达到6倍 Reticle面积的水平。此外,HBM内存容量也将继续增长,预计在2024年将达到24GB,而在2025年将达到36GB。
在上述前提假设条件下,针对H100/H200, B100, X100 GPU可以得到如下推演结论:
    1. H200是基于H100的基础上从HBM3升级到HBM3e,提升了内存的容量和带宽。
    2. B100将采用双Die架构。如果采用异构Die合封方式,封装基板面积将小于当前先进封装4倍Reticle面积的约束。而如果采用计算Die和IO Die分离,同构计算Die和IO Die合封的方式,封装基板面积将超出当前先进封装4倍Reticle面积的约束。如果采用计算Die和IO Die分离,同构计算Die和IO Die分开封装的方式,则可以满足当前的工程工艺约束。考虑到B100 2024年推出的节奏,以及计算Die在整个GPU芯片中的成本占比并不高,因此用异构Die合封方式的可能性较大。
    3. 如果X100采用单Socket封装,四个异构Die合封装的方式,需要在计算Die上堆叠HBM,同时需要先进封装的基板达到6倍Reticle面积。但是,如果采用SuperChip超级芯片的方式组成双Socket封装模组,可以避免计算Die上堆叠HBM,并放松对先进封装基板面积的要求,此时需要对NVLink C2C的驱动能力做增强。

 

 
基于B100双Die架构,采用双Socket板级3D扩展可以实现与X100同等的算力。类似的方法也可以应用到X100中进一步扩展算力。板级扩展可以降低对工程工艺的要求,以较低的成本实现算力扩展。虽然基于人们对于先进封装的Chiplet芯粒架构充满了期待,但是其演进速度显然无法满足AI计算系统“三年三个数量级”的增长需求 [33]。在AI计算领域基于先进封装Die间互联Chiplet芯粒架构,很可能因为无法满足AI计算领域快速增长的需求而面临“二世而亡”的窘境,业界需要重新寻找旨在提升AI算力的新技术路径,比如SuperChip超级芯片和SuperPOD超节点。因此,类似于NVLink C2C的低时延、高可靠、高密度的芯片间互联技术在未来AI计算芯片的Scale Up算力扩展中将起到至关重要的作用;面向AI集群Scale Out算力扩展的互联技术也同等重要。这两中互联技术,前者是AI计算芯片算力扩展的基础,而后者是AI计算集群算力扩展的基础。

总结与思考

本文尝试从第一性原理出发,对Nvidia的AI芯片发展路线进行了深入分析和解读,并对未来的B100和X100芯片架构进行了推演预测。并且,希望通过这种推演提取出未来AI计算系统对互联技术的新需求。
本文以互联技术为主线展开推演分析,同时考虑了芯片代际演进的性能提升需求和工程工艺约束。最终得出的结论是:在AI计算领域,基于先进封装Die间互联的Chiplet芯粒架构无法满足AI计算领域快速增长的需求,可能面临“二世而亡”的窘境。低时延、高可靠、高密度的芯片间互联技术在未来AI计算芯片的Scale Up算力扩展中将起到至关重要的作用;虽然未展开讨论,同样的结论也适用于面向AI集群Scale Out算力扩展的互联技术。224G及以上代际中,面向计算集群的互联技术也存在非常大的挑战。需要明确指出的是,互联技术并不是简单地将芯片、盒子、机框连接起来的问题,它并不是一根连线而已,它需要在需求、技术、产业生态等各个方面进行综合考虑,需要极具系统性的创新以及长时间的、坚持不懈的投入和努力。
除了互联技术以外,通过对Nvidia相关技术布局的分析也引发了如下思考:
1.   真正的差异化竞争力源于系统性地、全面地掌握整个价值链中主导无法快速复制的关键环节。Nvidia在系统和网络、硬件、软件这三个方面占据了主导地位,而这三个方面恰恰是人工智能价值链中许多大型参与者无法有效或快速复制的重要部分。然而,要在这三个方面中的任何一方面建立领导地位都离不开长时间坚持不懈的投入和努力带来的技术沉淀和积累。指望在一个技术单点形成突破,期望形成技术壁垒或者技术护城河的可能性为零。“重要且无法快速复制”是核心特征,其中“重要”更容易被理解,而“无法快速复制”则意味着“长时间坚持不懈的投入和努力”带来的沉淀和积累,这是人们往往忽视的因素。
2.   开放的产业生态并不等同于技术先进性和竞争力。只有深入洞察特定领域的需求,进行技术深耕,做出差异化竞争力,才能给客户带来高价值,给自身带来高利润。Nvidia基于NVLink C2C的SuperChip超级芯片以及基于NVLink网络的SuperPOD超节点就是很好的例子。真正构筑核心竞争力的技术是不会开放的,至少在有高溢价的早期不会开放,比如Nvidia的NVLink和NVLink C2C技术,比如Intel的QPI和UPI。开放生态只是后来者用来追赶强者的借口(比如UEC),同时也是强者用来巩固自己地位的工具(比如PCIE)。然而,真正的强者并不会仅仅满足于开放生态所带来的优势,而是会通过细分领域和构筑特定领域的封闭生态,实现差异化竞争力来保持领先地位。
3.   构筑特定领域的差异化竞争力与复用开放的产业生态并不矛盾。其关键在于要在开放的产业生态中找到真正的结合点,并能够果断地做出取舍,勇敢地抛弃不必要的负担,只选择开放产业生态中的精华部分,构建全新的技术体系。为了构筑特定领域的差异化竞争力,更应该积极拥抱开放的产业生态,主动引导其发展以实现这种差异化。比如,InfiniBand与Ethernet在低时延方面的差异化并不是天生的,而是人为构造出来的。两者在基础技术上是相同的。InfiniBand在25G NRZ代际以前抓住了低时延这一核心特征,摒弃跨速率代际兼容的需求,卸掉了技术包袱,并且在HPC领域找到了合适的战场,因此在低时延指标上一直碾压Ethernet,成功实现了高品牌溢价。而InfiniBand在56G PAM4这一代际承袭了Ethernet的互联规范,因此这种低时延上的竞争力就逐渐丧失了。人为制造差异化竞争力的典型例子还有:同时兼容支持InfiniBand和Ethernet的CX系列网卡和BlueField系列DPU;内置在NVSwitch和InfiniBand交换机中的SHARP在网计算协议和技术;Nvidia基于NVLink C2C构筑SuperChip超级芯片以及基于NVLink网络构筑SuperPOD超节点。
4.   “天下没有免费的午餐”,这是恒古不变的真理和底层的商业逻辑。商业模式中的“羊毛出在狗身上,由猪买单”其实就是变相的转移支付,羊毛终将是出在羊身上,只是更加隐蔽罢了。这一规律同样适用于对复杂系统中的技术价值的判断上。自媒体分析H100的BOM物料成本除以售价得到90%的毛利率是片面的,因为高价值部分是H100背后的系统竞争力,而不仅仅是那颗眼镜片大小的硅片。这里包含了H100背后的海量的研发投入和技术积累。而隐藏在这背后的实际上是人才。如何对中长期赛道上耕耘的人提供既紧张又轻松的研究环境,使研究人员能安心与具有长期深远影响的技术研究,是研究团队面临的挑战和需要长期思考的课题。从公开发表的D2D和C2C相关文献中可以看到,Nvidia在这一领域的研究投入超过十年,针对C2C互联这一场景的研究工作也超过五年。在五到十年的维度上长期进行迭代研究,需要相当强的战略定力,同时也需要非常宽松的研究环境和持续的研究投入。
5.   在人工智能时代,通过信息不对称来获取差异化竞争力或获得收益的可能性越来越低。这是因为制造信息不对称的难度和代价不断飙升,而其所带来的收益却逐渐减少。在不久的未来,制造信息不对称的代价将会远远超过收益。妄图通过垄断信息而达到差异化的竞争力,浪费的是时间,而失去的是机会。随着大模型的进一步演进发展,普通人可以通过人工智能技术轻松地获取并加工海量的信息且不会被淹没。未来的核心竞争力是如何驾驭包括人工智能在内的工具,对未来技术走向给出正确的判断。
6.   Nvidia并非不可战胜,在激进的技术路标背后也隐藏着巨大的风险。如何向资本证明其在AI计算领域的能够长期维持统治地位,保持长期的盈利能力,以维持其高股价、实现持续高速增长,极具挑战性。一旦2025年发布的X100及其配套关键技术不及预期,这将直接影响投资者的信心。这是Nvidia必须面临的资本世界的考验,在这一点上它并没有制度优势。在一些基础技术层面,业界面临的挑战是一样的。以互联技术为例,用于AI计算芯片Scale Up算力扩展的C2C互联技术,以及面向AI集群Scale Out算力扩展的光电互联技术都存在非常大的挑战。谁能在未来互联技术演进的探索中,快速试错,最快地找到最佳路径,少犯错误,谁就抓住了先机。在未来的竞争中有可能实现超越。

作者:陆玉春

来源:

https://www.chaspark.com/#/hotspots/950120945305616384

更多GPU技术细节,请参考文章“最新版:GPU显卡天梯图(2023年11月)”,“全球GPU呈现“一超一强”竞争格局”,“2023年GPU显卡词条报告”,“HBM崛起:从GPU到CPU”,“英伟达GPU龙头稳固,国内逐步追赶(2023)”,“英伟达L40S GPU架构及A100、H100对比”,“AI芯片第一极:GPU性能、技术全面分析”,“主流国产GPU产品及规格概述(2023)”,“新型GPU云桌面发展白皮书”,“国内外GPU现状:海外龙头领跑,国产差距明显”,“GPGPU流式多处理器架构及原理”等等。

相关阅读:

转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)和“存储系统基础知识全解(终极版)pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价399元)。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

来源:架构师技术联盟

相关新闻

课题结题有妙招!用计量分析文献就能写总结、发SCI论文,还能发论著。附:2024年第四期在线讲座英伟达赢麻了!马斯克xAI超级算力工厂曝光,10万块H100、数十亿美元2024大众汽车集团报告(业绩总结、战略规划、展望等)波士顿动力技术揭秘:后空翻、俯卧撑与翻车,6年经验、教训总结大佬们的“年终总结”:信心、危机感和生存法则ED上岸,来一场彻头彻尾规划、申请复盘总结Tomcat 调优总结(Tomcat自身优化、Linux内核优化、JVM优化)英国5月、6月、7月、8月住哪里便宜?这里总结了一些高性价比房源!巩固拓展主题教育成果,创造新业绩、交出新答卷!上海市主题教育总结会议举行,陈吉宁李锦斌出席并讲话省委副书记总结的机关工作十八法:不多事、不误事、不坏事血栓四项(TAT、PIC、t-PAIC、TM)的临床意义,这张表总结全了!一文总结马斯克最新八小时访谈:Neuralink、xAI 及人类未来​总结·政策篇:2023 前稳后松、两侧发力,2024 先立后破、加速转型总结·土地篇:2023 年数据回眸、关键词和 2024 年展望来自澳洲网友总结:在澳洲原来还有这些不成文的规定,移民、游客必看WLSA副校长揭秘英美双申;清华&芝大导师总结标化【满分秘籍】,还有夏校爬藤专家、香港DSE名师等做客直播间!仅用19天,马斯克建成全球最强“超算工厂”!10万块H100 GPU上线,Grok 3预计年底发布实践总结|前端架构设计的一点考究一文读懂英伟达的“新GPU”:比H100快5倍?1200W的功耗?液冷?与MI300X比较又如何?新零售SaaS架构:客户管理系统架构设计(万字图文总结)GPU大芯片创业的赛后总结全美TOP 5机器学习博士:痛心,实验室H100数量为0!同实验室博士用GPU得靠抢买不到GPU,马斯克自曝AI巨兽Dojo!自研超算挑战英伟达,约等于8千块H1001.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。