比GTC2024更精彩,黄仁勋现场问答万字纪要(建议收藏)
3月18—21日,英伟达GTC2024大会召开,黄仁勋的开幕演讲成为所有科技媒体的焦点。
其实这场科技盛会比大家想象更丰富,共有1010场活动,AI领域的专家学者齐聚一堂,内容十分丰富。
今天,我们为大家带来信息密度最大的一场,3月19日黄仁勋与华尔街分析师的现场问答记录。
黄仁勋现场回答了13个关键问题:英伟达未来是软件公司还是硬件企业?GPU进步的下一个方向?公司未来的市场上限,供应链管理以及定价策略是什么?
每个问题都直戳技术专家、专业投资人痛点,原文共3万字,经过梳理现有1.5万字,欢迎收藏后阅读。
3月28日,前哨科技特训营直播也将专题点评GTC2024,届时王煜全将为大家分享,他从GTC2024中看到哪些未来趋势,人工智能的未来3年将如何变化。
欢迎点击文首入口,3月28日晚8点,我们一起抓住下一个科技前沿!
提示:以下内容不够成投资建议,投资有风险,入市需谨慎。
精彩要点
黄仁勋现场问答记录
黄仁勋
早上好。很高兴见到你们所有人。今天的计划是什么?
科莱特·克雷斯(英伟达CFO)
感谢大家出席讨论。老黄和我在这里会回答大家的所有问题,无论是昨天的开幕式演讲,还是其他问题。
现在把话筒先交给老黄,由他做个简单的介绍,然后回答大家的问题,我们也希望不要把这场活动做成另一场演讲,希望大家多提问。
黄仁勋
是的,谢谢。我很高兴见到你们。我昨天有很多想说的话,可能已经说过了,但我想再说一遍。我必须承认,我之前从未在摇滚音乐会上表演过。我试图想象会是什么样子,但在走上舞台时,我仍然感到紧张。不管怎样,我尽了我能做的。
我明白,下次巡演我会做得更好。我只需要多练习。我想告诉你们几件事。你看,这就像做空间计算一样。如果你有机会看到 Omniverse 在 Vision Pro 中的表现,你会觉得很惊奇。它实在太逼真了。
我们昨天谈到了五件事,我想解释第一件事。我认为新的工业革命正在发生。两个变化正在发生:一是从通用计算转向加速计算。如果你只看通用计算的趋势,你会发现它已经在放慢速度。
事实上,我们都知道,过去十年它已经在放慢速度,但我们不得不面对这个事实。你可以看到,人们正在延长数据中心的使用期限。你可以买一套全新的服务器,但它并不会显著提高整个数据中心的效率。
所以,你可能会继续用你现有的设备一段时间。这种趋势是无法逆转的。通用计算已经达到了极限。我们仍然需要它,因为有很多软件需要运行,但我们需要尽可能地加速计算。
许多行业已经开始加速发展,其中一些是很大的工作负载,我们希望能进一步加速。加速计算的好处是显而易见的。
我昨天没有研究数据处理,这是我真正感兴趣的领域。NVIDIA有一套可以处理各种数据的库。数据量很大,世界各地都在产生大量数据。
数据处理很重要,如果你没有采用加速计算,处理数据的成本会越来越高。许多公司,如阿斯利康、Visa、美国运通、万事达卡,已经通过与我们合作,将数据处理成本降低了95%。
我们有一个叫做rapids的库,它的加速效果非常好。因此,Databricks公司宣布他们将使用NVIDIA的GPU来加速他们的光子引擎。
加速的好处是可以节省成本,并将这些节省下来的成本传递给客户。这样你就可以持续进行计算。否则,你就会落后于趋势。
我们已经加速了算法,使得计算的成本在过去十年中大幅下降。这使得一种新的软件,叫做生成式人工智能,成为了可能。生成式人工智能需要大量的计算,但现在它已经可以经济高效地完成。
新的方式是使用计算机来编写软件,这需要大量的数据。我们使用GPU超级计算机来处理这些数据,从而产生我们可以享受的服务,比如ChatGPT。
我们的数据中心不是普通的数据中心,它是一家工厂。它不像过去的数据中心那样被很多人共享,也不做很多不同的事情。它一直在运行一个应用程序,它的目标不仅仅是省钱,而是赚钱。
这就像上一次工业革命的电动发电机。原材料是水,他们向水施加能量,转化为电能。现在,我们的原材料是数据,我们使用数据处理和生成式AI模型来改进它。
这样我们就可以产生有价值的服务。我们将使用这种方法来生成软件,处理数据,与你互动,就像ChatGPT在与你互动一样。
我们的合作方式就像你和人工智能代理共同驾驶,你可以随你喜欢的程度扩展这个想法。这个想法来自一个叫做人工智能生成器的东西,我们称之为GPU超级计算机,它正在产生软件和代币。
有两个主要观点。一个是,我们今天使用的传统数据中心需要加速发展。它们正在现代化并影响越来越多的行业。所以,价值一万亿美元的数据中心一定会加速发展。但这个过程需要多少年才能完成?另一个观点是,人工智能的好处将加速这个趋势。
另外,我们有第二种数据中心,我们称之为人工智能发电机或人工智能工厂。这是一个新事物,产生新的宝贵资源,将被公司、行业、国家创建,这是一个新的行业。
我们还有一个新平台,叫做Blackwell。它的核心是一块芯片,但它也是一个计算机系统。我们不仅仅是制造芯片,我们构建了一整台超级计算机,从芯片到系统,再到互连、NVLink、网络,但最重要的是软件。
你能想象你家里堆积如山的电子产品,你要如何编程?如果没有多年来创建的库,你就有了价值数十亿美元的资产,你刚刚带入了你的公司。任何时候它没有被利用都会让你花钱,而且费用非常高。所以,我们不仅帮助公司购买芯片,还帮助他们开发系统并投入使用,然后一直与他们合作,使其得到更好的利用,这非常重要。
我们的工作方式是,我们构建了这个垂直集成的系统,但我们以一种可以稍后拆卸的方式构建它,并让你分批购买。也许你想把它连接到x86,或者PCI-Express结构,或者通过一大堆光纤连接它,也许你想要非常大的NVLink域,或者更小的NVLink域,等等。这有意义吗?
以太网对人工智能来说不是很好,但你不能改变这个事实。但是,你可以使以太网非常适合AI,这就是我们所说的超级以太网。在大约三到四年内,超以太网将会到来,这对人工智能来说会更好。但在那之前,以太网并不适合人工智能。所以,我们扩展了以太网,并为其添加了一些东西。我们称之为Spectrum-X,它可以进行自适应路由,做拥塞控制,做噪音隔离。
当你有多个活跃的网络用户时,会占用更多网络流量。但是,人工智能与网络流量的平均量无关,而是关心最后一个任务何时完成。这就像在班级中,我们关心的是最后一个学生何时提交作业,而不是平均提交时间。如果把网络设计为优化平均流量和最慢的用户,那么会有不同的架构。
就像人工智能把所有任务简化为一个总任务一样,所有的计算单元(如GPU)都需要彼此通信,而最后一个完成任务的计算单元会阻止其他所有人。这就是网络为什么会有影响。
所有设备都可以接入网络,但可能会损失10%到20%的使用效率。如果设备的价格是10000美元,那么10%到20%的效率损失可能不是很大。但如果设备的价格是20亿美元,那么10%到20%的效率损失就非常可观了。这就是为什么超级计算机要按照特定的方式构建的原因。
我们公司创建了一个平台和相关软件,以及所有必要的硬件设备,然后与客户合作,将其集成到他们的数据中心。这是因为每个客户的需求可能不同,比如安全需求、热量管理、管理界面等。他们可能想要用于特定的人工智能任务,或者出租给其他人进行各种人工智能任务。
我们考虑了所有这些因素,并已经找出了如何满足每个人的需求。所以,我们可以大规模制造超级计算机。但实际上,NVIDIA所做的就是建立数据中心。我们把它分解成小部分,然后作为组件出售。所以,人们把我们看作是一家芯片公司。
我们谈到了一种叫做NIM的新软件,这是大型语言模型的一种,例如ChatGPT。这些模型和聊天机器人非常神奇,而且反应速度非常快。这都要归功于OpenAI团队,他们是世界顶级的计算机科学组织。
注: NIM,即Nvidia Inference Microservices,将优化的AI推理引擎、标准 API 和对AI模型的支持打包到云容器中,加速AI大模型开发的软件服务。
为了让每家公司都有能力构建和运行自己的人工智能,我们决定创建一种工具,它可以打包大型语言模型。你可以在我们的网站上购买和下载这个工具。这个工具本身是免费的,但是使用这个工具运行人工智能的成本是每年每个GPU4500美元。
我们把这个工具称为NIM,或者NVIDIA推理微服务。你可以用NIM做很多事情,比如计算机视觉、语音识别、文本转语音、面部动画和机器人关节等等。你只需要从我们的网站下载NIM,然后根据你的需求进行微调就可以了。
我们还有一个系统,它可以帮助你把人工智能的使用过程标准化,做到精确而且专业。这个系统可以让你的人工智能更高效,而且可以根据你的需求定制化。
我们还提供了一个叫做Retriever的微服务,它可以帮助你处理数据库,包括结构化和非结构化的数据。我们还会帮你从数据中提取有用的信息,并把这些信息转化为向量,然后索引到一个新的数据库中,你可以直接和这个数据库交谈。
这是你的库存,你的仓库里有的。所有这些都被称为 NeMo,我们有专家来帮助您。我们把我们的NVIDIA基础设施,我们称之为DGX云,放在世界上所有的云中。在 AWS, Azure, GCP 和 OCI 中都有我们的 DGX 云。
我们与世界各地的企业公司合作,创建人工智能。当人工智能完成后,它们可以在DGX云中运行。这意味着我们把客户带到了世界的云中。我们是一个平台公司,我们带来系统厂商客户,而CSP就是系统厂商。他们租用系统而不是出售系统。
我们把客户带到我们的 CSP,这很明智,就像我们把客户带到 HP、戴尔、IBM 和联想等公司一样。如果你是一家平台公司,你就会为生态系统中的每个人创造机会。因此,DGX Cloud 使我们能够把所有这些企业应用程序迁移到全球 CSP 中。
下一波人工智能是关于工业人工智能的。大多数工业,以美元计算最多的工业,都是重工业,他们没有从IT中受益。他们没有从数字化中受益。我们的行业是完全数字化的,我们的技术进步非常大。我们称之为芯片设计。他们称之为药物发现,因为它是复杂的。它是如此的变化,而且影响深远,因为生命的进化速度与晶体管不同。这些都是非常复杂的问题。
好的。工业物理学和我们使用的大型语言模型技术很相似。如果我们能标记文字、语音和图像,我们也能标记发音。
我们可以标记移动的蛋白质,就像标记语音一样。我们可以标记所有这些东西,包括物理学。理解它的含义,就像我们理解单词的含义一样。
如果我们能够理解它的含义并将其与其他模式联系起来,我们就可以做出生成式人工智能。12年前我就看到了这个可能性,我们公司在ImageNet上也看到了。
ChatGPT很有趣,但我们在看什么?它是在模仿我们的话语。如果它可以标记单词和发音,为什么不能模仿我们并以ChatGPT的方式概括它?因此,机器人技术的ChatGPT时代即将来临。
我们希望人们能够做到这一点,所以我们创建了这个操作系统,叫做Omniverse。Omniverse不是一个工具,也不是一个引擎,而是一个API,用于增强其他人的工具。
我对达索公司的宣布感到非常兴奋,他们正在使用Omniverse API来增强3DEXCITE。Microsoft和罗克韦尔公司也已将其连接到他们的工具中,西门子也是如此。
这些API旨在增强第三方工具,我很高兴看到它们被采用,特别是在工业自动化方面。这就是我们做的五件事。
我马上就要结束了。我花了很多时间,但请让我快速完成下一个。这张图表传达了几件事。首先是开发人员。NVIDIA是市场创造者,而不是股票接受者。因为我们所做的一切在我们开始的时候都不存在。
我们不得不去创造必要的算法。在我们创建实时光线追踪之前,它并不存在。所以,所有这些功能在我们创建它们之前都不存在。一旦我们创建了它,就没有应用程序。所以,我们必须与开发人员合作,集成我们刚刚创建的技术,让应用程序受益。
我刚刚提到了我们创造的Omniverse。我们没有从别人那里获取它,它是我们的创新。为了使其有价值,我们需要开发者,如Dassault,Ansys,Cadence等。这就像罗克韦尔和西门子一样。
我们希望开发者使用我们的API和技术。这些有时以SDK的形式提供。对于Omniverse,我很高兴它有云API,因为这使得更容易使用。我们在Azure云中运行Omniverse。每当我们连接到客户,都为Azure创造了机会。
所以,Azure是其基础,是他们的系统供应商。以前,供应商通常是原始设备制造商,现在也是,但是供应商在底部,开发者在上面。我们在中间创新技术。我们创新的技术最后就是芯片。
首先是软件。没有开发者,就不会有芯片的需求。因此,NVIDIA首先是一家算法公司,我们创建了这些SDK。这些被称为DSL,即领域特定的库。你可能听说过SQL和Hadoop,这些都是领域特定的库。
NVIDIA的cuDNN可能是世界上最成功的领域特定库之一,仅次于SQL。cuDNN是一个专门用于深度神经网络计算的库。如果没有DNN,就无法使用CUDA,所以我们创造了DNN。
实时光线追踪引擎导致了RTX的出现,这是很自然的。我们有很多领域特定的库。Omniverse就是其中之一。这些领域特定的库与软件开发者结合,当应用程序被创造出来,并有需求时,它就会为下面的基础创造机会。我们是市场的创造者,而不是接受者。这个理解了吗?
所以,结论是,没有软件就无法创造市场。这一直是这样,没有改变。你可以制造芯片来改善软件的运行,但如果没有软件,就无法创造一个新市场。英伟达的独特之处在于,我们可以创造自己的市场,并了解到我们正在创造的所有市场。
我们总是在谈论未来和我们正在努力的事情。我很高兴能与整个行业合作,创建计算机辅助药物设计行业,而不仅仅是药物发现或设计。
我们应该像设计电脑芯片一样设计药物,而不只是发现它们。所以,我希望每年的产品都比前一年的更好,而不是像寻找松露那样不确定。
因此,我们把开发人员放在首位。他们想要简单易用的工具。他们需要你的技术来解决他们无法用其他方式解决的问题。对于他们来说,最重要的是有一个稳定的基础。因为如果没有人有硬件来运行他们的软件,他们的软件就无法使用。
开发人员需要的是一个从未改变的安装基础。如果你在开发人工智能软件,你需要一个可靠的基础才能让人们使用它。
然后是系统公司,他们需要能运行杀手级应用的硬件。因为杀手级应用带来了客户需求,而客户需求则需要硬件。
启动这个循环是非常困难的。你能构建多少个加速计算平台?你能为人工智能、工业机器人、量子计算、6G和天气预报提供加速计算平台吗?
你可能有各种不同的版本,每个版本都擅长某一方面,比如流体,粒子,生物学,机器人技术,人工智能,或者 SQL。但是,你需要一个足够通用的加速计算平台,就像上一个计算平台能运行一切一样。
我们在NVIDIA上运行了很多程序。如果你的软件是加速的,我非常确定,它可以在NVIDIA上运行。这就是NVIDIA的架构。
我在演讲时,我会谈到这个架构的所有方面,包括一些新的研究,比如Blackwell。这个架构有很多好东西,值得你去研究。比如6G研究,人工智能和机器人MIMO。
为什么MIMO如此重要,为什么算法会在站点之前出现。我们应该有像机器人MIMO那样的站点特定的MIMO。所以6G肯定会是软件定义的,肯定会有人工智能。
我们还谈到了量子计算,我们期望成为量子计算行业的良好合作伙伴。你打算如何驾驶量子计算机?你打算如何模拟量子计算机?量子计算机的编程模型是什么?
所以我们已经开始做了这个工作,并且我们正在与所有相关行业合作。总的来说,有很多令人兴奋的事情发生。我们可以就所有这些事情做一个完整的主题演讲。但我们已经涵盖了所有的领域。那就是昨天的事情了。谢谢你们。
问答环节
本·雷茨
你如何看待软件业务的发展?你认为它是否与芯片业务一样重要?你是否更看重自己是一家芯片公司,还是更看重软件的发展和行业建设?
黄仁勋
感谢你的提问,本。首先,谢谢大家的到来。我们在NVIDIA做的主要是两件事情:一是开发能优化计算机性能的算法;二是开发新的软件。这些软件能解决一些复杂的科学问题,例如Navier-Stokes的算法,这个算法非常复杂,需要很多的发明。因此,我们的工作主要集中在这两个方面。
我们的软件不仅对娱乐和媒体有用,还对科学有帮助。现在,我们正在将这些软件打包成企业软件,这将是前所未有的企业软件。我们将有许多这样的软件包,我们会制造这些东西,支持它们,维护它们,保持它们的性能等,以支持我们的客户。我希望这将是一个非常大的业务,是工业革命的一部分。
现在的IT行业有许多伟大的公司,如SAP,ServiceNow,Adobe,Autodesk等,但我们的工作不在这一层。我们的工作在上一层,那里有许多人工智能和算法。我认为,我们是构建这些算法的正确公司。我们会与这些公司一起构建一些算法,我们自己也会构建一些,但我们会将它们打包并在企业规模上部署。再次感谢你的提问。
薇薇克·艾莉亚
我想了解更多关于潜在市场规模的信息。我注意到大客户中有30%至50%的支出用于购买你们的产品,但生成式AI在销售额中的占比却不到10%。这种差距会持续多久?市场规模有多大?我们在采用曲线的哪个位置?这基于它能实现的货币化程度。
黄仁勋
好的,我会尽可能简短地回答你的问题。市场规模多大?这取决于我们能销售多少产品。我们主要销售的是数据中心。
我会把这个问题分解来讨论。我们卖的是整个数据中心。你看到的芯片是我们产品的一部分,但我们并不是只卖芯片。你需要把这些芯片集成到我们的系统中,这是一个复杂的过程。我们为AI构建了整个数据中心。所以,我们销售的是什么?机会在哪里?当前的市场规模是1万亿美元,每年有2500亿美元的市场。
我们卖的是整个数据中心,所以我们的市场份额可能会比只卖芯片的公司更大。我们的目标是加速计算平台数据中心规模,所以我们的市场份额可能会比过去更大。关于这个市场的可持续性,我有两个观点。
你购买我们的产品是因为我们的AI技术。如果你只用GPU做一个应用程序,那么你的市场份额可能会达到100%。但是,如果你的价值主张包括AI训练模型,降低计算成本,加速计算,可持续计算,节能计算,那么NVIDIA就是你的选择。
我们做得太好了,以至于人们忘记了我们还有其他的应用,比如计算机图形学和游戏。我们是一个加速计算公司,但人们可能会误认为我们只是一家游戏公司。总的来说,市场规模是1万亿,每年有2500亿美元的市场。每年应该有2500亿美元用于加速计算,不论是否使用AI,都需要进行可持续计算,处理SQL等任务。再加上生成式AI,市场的可持续性就更强了。
我认为我们将生成文字、图像、视频、蛋白质、化学物质、动力学作用、操纵等等。我们将生成预测、账单计划、物料清单等等。
史黛西·拉斯贡
昨天的测试主要是新系统Grace Blackwell,它比Grace Hopper多了一个GPU。你们没有深入谈论独立GPU的测试,这是一个转变吗?你们是否在想要为未来的AI服务器增加更多CPU?另外,你们对ARM和x86 CPU的看法如何,你们似乎对x86的发展不太关注?
黄仁勋
是的,史黛西。我非常欣赏这个问题。其实我们对x86和ARM都看好,他们都非常适合数据中心。
Grace系统的设计有其原因,它是基于ARM的,这样我们可以自由地设计NVIDIA系统架构。我们可以创建一个叫做“芯片到芯片”的连接,比如连接GPU和CPU之间的NVLink。我们可以使两端连贯,这样当CPU接触一个寄存器时,GPU端的同一个寄存器会失效。这样,CPU和GPU可以在同一个变量上协同工作。
目前在x86和外围设备之间做不到这一点,但我们解决了这个问题。因此,Grace Hopper非常适合多物理场的CAE应用。一些运行在CPU上,一些运行在GPU上。它非常适合不同的CPU和GPU组合。
我们可以将大内存和每个GPU或两个GPU连贯地关联起来。因此,我们可以解决一些问题,比如数据处理,在Grace Hopper上非常优秀。所以,解决这个问题并不是因为CPU本身,而是我们无法采用这个系统。
其次,我想说的是,我展示了一张图表,比较了Hopper和Blackwell,也就是Grace Blackwell在x86系统B100、B200和GB200上的表现。在这种情况下,Blackwell的优点并不是因为CPU更好,而是因为在Grace Blackwell中,我们能够创建一个更大的NVLink域。对于下一代AI来说,更大的NVLink域非常重要。
在接下来的三到五年里,如果你想要一个好的推理性能,你将需要NVLink。这就是我想要传达的信息。我们将会更深入地讨论这个问题。现在已经很清楚了,这些大型语言模型,它们永远无法适应一个GPU。但这并不是重点。为了让你有足够的响应速度并具有高吞吐量以降低成本,你需要比你能适应的GPU更多的GPU。为了让大量的GPU在没有开销的情况下协同工作,你需要NVLink。
NVLinks的优点不仅在训练中,推理中的作用也是非常重要的。这就是5X和30X之间的区别,另一个是6X,都是NVLink。新Tensor Core中的NVLinks,对不起。是的,没错。因此,用Grace我们可以按照需要构建系统,而使用x86就更难了。但是我们两者都支持。我们将有两个版本。在B100的情况下,它只是滑入H100和H200进入的地方。因此,从Hopper到Blackwell的过渡是即时的。当它可用时,你只需要将其滑入,然后你就可以开始处理下一个数据中心。所以,我们在架构的极限下获得了极其出色的性能和易于转换的好处。
马特·拉姆齐
关于昨日提到的NIM,您能大概说说公司在企业和人工智能工具的发展吗?另外,关于如何提供高达100千瓦的系统电源,我们有疑问,希望您能分享公司的合作方式。谢谢。
黄仁勋
好的,我先回答第二个问题。电力输出,100千瓦对于计算机来说是很多的,但对于世界来说,需要的远不止120千瓦。所以电力不是问题,电力的传递和冷却也不是问题。这些都不需要发明,只需要规划供应链。我们非常重视供应链规划,这就是我们与各公司建立良好合作关系的原因。例如,我们与维谛技术(Vertiv)研究冷却系统,他们在设计液冷和其他数据中心供应链中非常重要。我们还与西门子等公司建立了良好的合作伙伴关系。
关于NIMs,我们有两种方式进入企业。一种是通过创建NIM并通过GSI和解决方案提供商帮助公司将NIM转化为应用程序。另一种是为NVIDIA Synopsys、Cadence和Ansys等工具配备副驾驶,我们甚至为我们自己的工具构建副驾驶,称之为ChipNeMo。ChipNeMo非常聪明,知道如何对NVIDIA程序进行编程。我们告诉新来的工程师使用ChipNeMo,他们可以在吃饭的时候让ChipNeMo做一些事情。
我认为,SAP、ServiceNow等公司会创建他们的副驾驶。他们会像雇用工程师一样租用他们的副驾驶,这就像一个人工智能劳动力行业。我对我们与他们所有人的合作伙伴关系感到非常兴奋,我总是告诉他们,他们坐在金矿上。
蒂姆·阿库里
我有一个问题,现在,H100主要用在新的场所,人们不会用H100替换A100,但B100可能会用来更新旧的设备,比如拿掉A100,换上B100。这样的话,我们可以服务的市场价值可能从1万亿美元变成2万亿美元,如果换新的周期是四年的话。你之前说的5000亿美元主要是通过更新现有的设备。你对这个怎么看?
黄仁勋
这是个好问题。现在,我们主要是在更新数据中心里最慢的计算机,也就是CPU。这是我们应该做的。然后你会看到新的设备更新。我相信,在未来五到八年,我们会开始看到我们自己设施的更新周期。但我不觉得现在就开始更新是最好的。你知道,安培的生产能力非常高。
布雷特·辛普森
在推理端,你怎么看B100的性能和成本,以及和ASIC或其他平台的比较呢?谢谢。
黄仁勋
我认为对于语言模型,新的 transformer 引擎和 NVLink 的大型语言模型 Blackwell 难以超越。因为问题的规模很大。TensorRT-LLM 是一个优化编译器,它是我刚提到的。Tensor Core 下面的架构是可以编写程序的。NVLink 可以连接许多 GPU,几乎没有开销。64个 GPU 可以组成一个可编程的 GPU ,这很了不起。
如果没有 NVLink,通过网络一样联接就不能实现。你就是在浪费。因为它们都需要交流,所以它被称为all2all。当所有人都需要交流时,最慢的链接就是瓶颈。这就像两座城市在河的两边,桥就是瓶颈。这就是吞吐量。那座桥就是以太网。一边是 NVLink,另一边是 NVLink,以太网在中间没有意义。所以,我们必须把它变成 NVLink。现在,我们让所有 GPU 协同工作。所以这是一个非常复杂的并行计算问题。所以我认为--我认为 Blackwell 已经设置了很高的标准。它就像一座山。和 ASIC 或其他的比,无法超越。
CJ缪斯
你们说买的越多优惠越多,那么你们在定价时是如何考虑的,这会如何影响你们的定价策略?我们该如何看待标准利润率?谢谢。
黄仁勋
我们的定价策略始终从总体成本(TCO)出发。我很赞赏你的问题。
我们始终考虑TCO。然而,我们也希望拥有不同的TCO,而不只是针对特定的客户群。比如,当你的客户群只有一个特定领域,如分子动力学,如果他们只有一个应用程序,那么你就根据这个应用程序来设定TCO。如果是医学成像系统,TCO可能会非常高,但市场规模很小。我们的市场规模在每一代都在增长,对吗?
我们希望所有人都能买得起Blackwell。所以在某种程度上,这是一个需要我们自己解决的问题。当我们解决更大的问题,面向更大的市场时,有些客户可能会觉得物超所值。但这没关系。通过简化业务,有一个基础产品,你就能服务一个非常大的市场。随着时间的推移,如果市场开始分化,我们可以进行细分,但我们现在还远未到那个程度。因此,我认为我们有机会创建一个产品,为许多人提供巨大的价值,为所有人提供良好的价值。这就是我们的目标。
约瑟夫·摩尔
你说 GB200 的优点很好,我特别喜欢它更大的 NVLink 功能。你能说说 GB200 和 GH200 的工作有什么不同吗?你为什么觉得 GB200 可能更受欢迎?
黄仁勋
这是个好问题。简单来说,GH200、100、200,也就是 Grace Hopper,在真正起飞之前,Grace Blackwell 就已经存在了。Grace Hopper 承担了一些额外的任务,这是 Hopper 没有的。Ampere 刚好填补了这个空缺。A100 去了 H100,然后他们会去 B100,依此类推。
这些特定的底盘或用例已经很成熟,我们会继续前进。软件也是专门为此设计的。人们知道如何操作它等等。Grace Hopper 有些不同,它解决了我们以前没有很好解决的一些新应用。我之前提到过一些,比如需要 CPU 和 GPU 紧密协作的多物理场问题,或者非常大的数据集等等。
Grace Hopper 非常擅长解决这些问题。因此,我们正在为此开发软件。现在,我给大部分客户的建议是,先用 Grace Blackwell,我已经给他们这个建议了。因此,他们将来用 Grace Hopper 的所有东西都会和现有的架构完全兼容。这是一件非常好的事情。所以,不管他们现在有什么,不管他们以后会买什么,都是好的。但我建议他们把所有的精力都放在 Grace Blackwell 上,因为它会更好。
身份不明的分析师
我听说你们的机器人技术正在接近ChatGPT式的突破,这意味着什么,以及机器人有什么新的进展吗?谢谢。
黄仁勋
好的,有几个重点。首先,我很欣赏这一点。两年前,我展示了 Earth-2。现在我们有了新的算法,可以预测3公里范围内的天气。这需要巨大的计算能力,要比现在的天气预测系统强大25000倍。天气模拟需要大量的数据,因为世界看起来很混乱,你需要模拟很多分布,对很多不同的参数进行采样,以理解天气模式。对于预测一周后的天气情况,尤其是极端天气,这需要大量的数据采样。因此,我们基本上是在做10000次天气模拟。
两年前,我展示了我们如何训练人工智能来理解物理学,这在物理上是可能的。因此,我们联系了世界上最值得信赖的天气来源,天气公司,以帮助世界各地的人们进行天气预测。无论你是航运公司还是保险公司,或者你在东南亚地区,你都需要了解天气状况。
ChatGPT的工作原理是这样的:它从我们人类的例子中学习并推广。它可以理解上下文,生成区域形式,适应自己的上下文含义,或者适应了当前环境,上下文。现在,它可以生成原始代币,把所有东西都转化为代币。无论是声音识别、氨基酸重建,还是运动学习,我们都可以通过代币化来理解和概括。
现在,我们需要一种被称为对齐的方法。ChatGPT的伟大发明是它可以学习人类的反馈,通过尝试和错误来自我改进。当然,现在的问题空间要复杂得多,因为它是物理的东西。所以,你需要物理反馈。这就是Omniverse的作用,它是物理反馈的强化学习,把AI和物理世界联系在一起。
我只是用同样的概念描述了两个完全不同的领域。所以我所做的是,我推广了通用人工智能。通过概括它,我可以在其他地方重新应用它。我们已经开始为此做准备。现在你会发现Isaac Sim,这是一个基于Omniverse的模拟环境,对于任何正在做这些机器人系统的人来说,都会非常有用。我们已经为机器人创建了操作系统。我知道你们有很多问题,但我只能用这种方式回答。
阿蒂夫·马利克
我有问题要问科莱特(英伟达CFO)。你提到Blackwell平台会在今年晚些时候推出。具体是十月还是一月?关于供应链,你们怎么准备新产品,特别是B200 CoWoS-L封装?你们怎么让供应链准备好新产品?
科莱特·克雷斯
是的,我先回答你第二个问题,关于供应链的准备。我们一直在为新产品的上市做准备。我们很荣幸有合作伙伴和我们一起发展供应链。我们一直在提高弹性和冗余。但是,你说得对,新的领域,CoWoS的新领域,新的内存领域,以及我们正在构建的大量组件和复杂性。这正在进行中,并将在我们推出产品时出现。所以,我们的供应链也包括了帮助我们进行液体冷却的合作伙伴,以及准备好构建整个数据中心的其他合作伙伴。这项工作是为了简化规划和处理,以放入我们所有的 Blackwell 不同配置。说到你的第一个问题,我们何时会进入市场?今年晚些时候,你会开始看到我们的产品进入市场。我们已经和很多客户讨论过设计和规格,他们告诉我们他们的需求。这对我们开始供应链工作、开始生产和我们将要做的事情非常有帮助。这是真的,尽管在一开始,有一些需求可能会有限制。希望我回答了你的问题。
黄仁勋
要知道,Hopper 和 Blackwell 是为了满足人们现在的操作需求而生的,而现在人们对 Hoppers 的需求非常大。我们的许多客户已经了解了Blackwel的情况。他们也清楚时间表和功能。我们会尽快让更多人知道这些信息,以便他们可以规划他们的数据中心,同时也注意到Hopper的需求没有变。这是因为他们要满足业务需求。他们现在就有客户,他们必须马上进行业务,而不是等到明年。
皮埃尔·费拉古
我们会不会看到更多的芯粒组合?你观察到哪些模型,它们会如何影响新一代的架构?数据中心AI的GPU架构会如何发展?
黄仁勋
是的,我将从第二个问题开始回答。我们的平台优势在于能够完成各种人工智能研究。因此,我们能够观察到各种新技术的发展。下一代模型都在努力提升现有系统的性能上限。例如,大的上下文窗口,大规模的合成数据生成,强化学习等等。这些模型需要学习如何进行推理和规划。所以,我们需要完成一系列的计划,包括推理系统和多步推理系统。这个过程可能会很复杂,就像下围棋一样。但是,研究这些问题是非常激动人心的。因为我所描述的这些原因,未来几年的系统可能会超乎我们的想象。有些人担心互联网可用于训练这些模型的数据量,但其实不必担心。模型之间的交互,强化学习,都会生成大量的数据。今天,我们有一个计算机用于训练数据。但是明天,可能需要两台计算机相互训练。就像AlphaGo一样,通过多个系统的竞争,我们可以更快地完成这些计划。因此,一些非常令人兴奋的创新工作即将到来。
我们可以确定的是,这些GPU的规模,他们希望能更大。我们公司的SerDes是世界一流的。因为我们的数据速率和能量消耗都很低,我们能够制造NVLink。请记住,NVLink是因为我们无法制造出足够大的芯片,所以我们将八个芯片连接在一起。这是在2016年。现在我们使用的是NVLink Gen 5,它允许我们将576个芯片连接在一起。数据中心不一定需要靠得那么近,所以将它们分成576种方式是可以的。
现在,我们可以制造出更接近的芯片。软件应该是构建出最大的芯片,然后将多个芯片放在一起。但是,你应该从制造最大的芯片开始。否则,为什么我们过去不做多芯片呢?我们一直在推动,到极致。这是因为片上数据速率和片上能源使得编程模型尽可能均匀。所以,你没有非均匀内存访问,你没有奇怪的缓存行为。你没有内存局部性行为,这会导致程序根据运行它们的系统所在的节点以不同的方式工作。我们希望我们的软件无论在哪都能运行得一样。所以,你应该从制造尽可能大的芯片开始。
这是我们第一种Blackwell架构。我们将两个芯片连接在一起,每秒10TB的技术是惊人的。以前没有人见过每秒10TB的链接。这显然消耗的功率非常少,否则它就只能做那个链接了。
你必须解决的第一个问题是CoWoS。它是世界上最大的CoWoS,因为第一代CoWoS已经是世界上最大的CoWoS。现在第二代更大了。我们的好处是这次我们并不感到惊讶。上一次的销量增长需求相当急剧,但这次我们有足够的能见度。我们与供应链合作,与台积电密切合作。我们已准备好迎接激动人心的坡道。
亚伦·拉克斯
我想了解NVLink和576个GPU的互连的原理,Spectrum 4产品的影响,以及NVLink与以太网的竞争情况。
黄仁勋
哈哈,首先,我们的算法非常简单。我们的目标是制造最大的芯片,如果再大一些,它就无法支撑自己。这就是我们的第一步。然后,如果可能,我们会将两个这样的芯片连在一起。但是,你不能把四个这样的芯片连在一起,这是不可能的。这就是我们的第二步。
然后,你可能会遇到各种奇怪的效果。为了解决这些问题,我们采用了NVLink。然后,你就会遇到NVLink的问题。如果你没有NVLink,你可能会遇到困难。但是,如果你有NVLink,你就可以尽可能地扩大NVLink的规模,根据功耗和成本进行调整。这就是为什么我们选择直接链接NVLink,而不是使用光收发器。
然后,你有了一个巨大的芯片,有576个GPU。但这还不够,我们还需要连接更多的芯片。然后,你需要使用InfiniBand或者以太网,并且增加一个我们称之为Spectrum X的计算层,这样我们就可以更好地控制系统中的流量。
所以,我们的目标是让最后一个完成的部分尽可能快。这就是我们的目标,我们希望所有的部分都能在正确的时间完成。然后,我们需要尽可能地扩大规模,这可能需要使用光学设备。
我希望你不要担心我们对光学设备的需求,我们非常需要它们。我们对此没有改变。我们只是让计算机和GPU变得更大。这真是太有趣了。
威尔·斯坦
你能解释一下你在阿拉伯联合酋长国谈论的主权AI是什么吗?你会如何向我91岁的母亲解释加速计算,我们该怎么理解它?
黄仁勋
好的。对于第二个问题,我会说要用对的工具做对的工作。现在,通用计算就像是用同一把螺丝刀做所有的工作。你每天都在用它,无论是刷牙还是打扫卫生。但随着时间的推移,人们开始制造出更多功能的螺丝刀,使其更适合各种任务。
我们创建了两种不同的工具,CPU和GPU。CPU擅长处理顺序任务,而GPU擅长处理并行任务。对于很多应用程序,如Excel,它们需要处理的并行任务并不多,所以CPU是最佳选择。然而,对于一些新的应用程序,如计算机图形学和视频游戏,它们的运行时间的99%都花在了处理1%的代码上。这就是我们需要GPU的地方。
总的来说,我们选择或者创建工具,是为了更好地处理那些需要大量运行时间的代码。这就是加速计算的含义。
至于主权 AI。每个国家都有自己的自然资源,比如他们的语言和文化。这些都是他们的宝贵财富,就像印度有自己的语言和方言,有自己的情感,文化和历史。这些都保存在他们的国家档案馆中,大部分都已经数字化,但并未公开在网上,这都是他们的。
因此,他们应该开发自己的主权人工智能,就像瑞典和日本正在做的那样。各国都意识到他们的语言和文化是他们的自然资源,不能让其他人随意使用,更不能支付费用将自己的资源买回来。他们应该保护自己的数据,开发出自己的人工智能。所以,我们的产品可能受到出口管制。但在大多数地方,我们的产品并未受到出口管制。如果有出口管制,我们可以和美国政府合作确保产品顺利出口。我们也确保我们的产品符合出口管制,在必要的时候,我们可能会提供降级版本的产品。但最重要的是,我们首先要遵守出口管制。这是一个很大的市场,因为几乎每个文化都需要训练和改进自己的人工智能。
黄仁勋
谢谢大家,这是一个特殊的时刻。我们很少经历这样的时期,60年后,我们正在重新发明最重要的工具,新的软件方式正在出现。软件是我们创造的最重要的技术之一,你正在新的工业革命的开始。所以,接下来的10年,你绝对不想错过。再次感谢。
【前哨科技特训营第四季前瞻】
1. 前哨科技特训营直播课程第四季(2023年)共50讲+,除此之外还有5节加餐+公开课。
2. 每讲承诺为1小时视频内容,实际平均时长为2小时。
3. 每周四晚八点准时直播,会员可无限次观看回放。
4. 新入会员,可以无限次回看之前所有视频课程。
5. 成为会员即可使用【AI王煜全】,最新AI大模型开发的专属科技分析助手
6. 每周组织【前哨·创新启发局】,链接科技/产业一线人士,打开技术/应用前沿视野
7. 优先获取全球科技产业一线游学、访问机会,接触科技/产业专家,获取最新、最前沿的趋势洞察,人脉链接
8. 本课程为虚拟内容服务,年费订阅服务制。一经订阅概不退款,线下活动需另行支付差旅成本,请您理解。
1. 前哨科技特训营直播课程第四季(2023年)共50讲+,除此之外还有5节加餐+公开课。
2. 每讲承诺为1小时视频内容,实际平均时长为2小时。
3. 每周四晚八点准时直播,会员可无限次观看回放。
4. 新入会员,可以无限次回看之前所有视频课程。
5. 成为会员即可使用【AI王煜全】,最新AI大模型开发的专属科技分析助手
6. 每周组织【前哨·创新启发局】,链接科技/产业一线人士,打开技术/应用前沿视野
7. 优先获取全球科技产业一线游学、访问机会,接触科技/产业专家,获取最新、最前沿的趋势洞察,人脉链接
8. 本课程为虚拟内容服务,年费订阅服务制。一经订阅概不退款,线下活动需另行支付差旅成本,请您理解。
微信扫码关注该文公众号作者