【新智元导读】刚刚,老黄又高调向全世界秀了一把:已经量产的Blackwell,8年内将把1.8万亿参数GPT-4的训练能耗狂砍到1/350;英伟达惊人的产品迭代,直接原地冲破摩尔定律;Blackwell的后三代路线图,也一口气被放出。
就在刚刚,老黄手持Blackwell向全世界展示的那一刻,全场的观众沸腾了。
它,是迄今为止世界最大的芯片!
眼前的这块产品,凝聚着数量惊人的技术
如果用老黄的话说,它就是「全世界迄今为止制造出来的最复杂、性能最高的计算机。」
8年内,1.8万亿参数GPT-4的训练能耗,直接疯狂降到1/350;而推理能耗则直接降到1/45000
英伟达产品的迭代速度,已经彻底无视摩尔定律。
就如网友所言,无所谓,老黄有自己的摩尔定律。
一手硬件,一手CUDA,老黄胸有成竹地穿过「计算通货膨胀」,放出豪言预测道——在不久的将来,每一个处理密集型应用都将被加速,每一个数据中心也肯定会被加速。
同时公开的Blackwell后三代路线图:Blackwell Ultra(2025年),Rubin(2026年),Rubin Ultra(2027年)
「买得越多,省得越多」的黄式数学公式,也再次亮相。
演讲开篇,老黄最先放出了一个Omniverse模拟世界中的演示。
他表示,「英伟达正处于计算机图形模拟和人工智能的交叉点上。这是我们的『灵魂』」。
这一切都是物理世界中的模拟,它的实现,得益于两项基本的技术——加速计算和人工智能,将重塑计算机产业。到目前为止,计算机行业已有60多年的历史,而现在,一个全新的计算时代已然开始。1964年,IBM的System 360首次引入了CPU,通用计算通过操作系统将硬件和软件分离。架构兼容性、向后兼容性等等,所有我们今天所了解的技术,都是从这个时间点而来。直到1995年,PC革命开启让计算走进千家万户,更加民主化。2007年,iPhone推出直接把「电脑」装进了口袋,并实现了云端链接。可以看出,过去60年里,我们见证了2-3个推动计算行业转变的重要技术节点。加速计算:一手GPU,一手CUDA
而如今,我们将再一次见证历史。老黄表示,「有两个最基础的事情正发生」。首先是处理器,性能扩展已经大大放缓,而我们所需的计算量、需要处理的数据都在呈指数级增长。过去的20年里,英伟达一直在研究加速计算。比如,CUDA的出现加速了CPU负载。事实上,专用的GPU效果会更好。当我们运行一个应用程序,不希望是一个运行100秒,甚至是100个小时的APP。因此,英伟达首创了异构计算,让CPU和GPU并行运行,将过去的100个时间单位,加速到仅需要1个时间单位。可见,它已经实现了100倍速率提升,而功耗仅增加的3倍,成本仅为原来的1.5倍。英伟达同时为价值十亿美元的数据中心,配备了5亿美元的GPU,让其变成了「AI工厂」。有了加速计算,世界上许多公司可以节省数亿美元在云端处理数据。这也印证了老黄的「数学公式」,买得越多,省得越多。除了GPU,英伟达还做了业界难以企及的事,那就是重写软件,以加速硬件的运行。如下图所示,从深度学习cuDNN、物理Modulus、通信Aerial RAN、基因序列Parabricks,到QC模拟cuQUANTUM、数据处理cuDF等领域,都有专用的CUDA软件。也就是说,没有CUDA,就等同于计算机图形处理没有OpenGL,数据处理没有SQL。而现在,采用CUDA的生态遍布世界各地。就在上周,谷歌宣布将cuDF加入谷歌云中,并加速世界上受欢迎的数据科学库Pandas。而现在,只需要点击一下,就可以在CoLab中使用Pandas。就看这数据处理速度,简直快到令人难以置信。老黄表示,要推行一个全新的平台是「蛋和鸡」的困境,开发者和用户,缺一不可。但是经过20年的发展,CUDA已经打破了这个困境,通过全球500万开发者和无数领域的用户实现了良性循环。有越多人安装CUDA,运行的计算量越大,他们就越能据此改进性能,迭代出更高效、更节能的CUDA。
2012年,神经网络AlexNet的诞生,将英伟达第一次与AI联系起来。我们都知道,AI教父Hinton和高徒当时在2个英伟达GPU上完成AlexNet的训练。深度学习就此开启,并以超乎想像的速度,扩展几十年前发明的算法。但由于,神经网络架构不断scaling,对数据、计算量「胃口」愈加庞大,这就不得不需要英伟达重新发明一切。2012年之后,英伟达改变了Tensor Core,并发明了NvLink,还有TensorRT、Triton推理服务器等等,以及DGX超算。当时,英伟达的做法没有人理解,更没人愿意为之买单。由此,2016年,老黄亲自将英伟达首个DGX超算送给了位于旧金山的一家「小公司」OpenAI。从那之后,英伟达在不断扩展,从一台超算、到一个超大型数据中心。直到,2017年Transformer架构诞生,需要更大的数据训练LLM,以识别和学习一段时间内连续发生的模式。之后,英伟达建造了更大的超算。2022年11月,在英伟达数万个GPU上完成训练的ChatGPT横空出世,能够像人类一样交互。这是世界第一次看到了生成式AI。它会一次输出一个token,可以是图像、语音、文字、视频,甚至是天气token,全部都是关于生成。老黄表示,「我们可以学习的一切,现在都可以生成。我们现在已经进入了一个全新的生成式AI时代」。当初,那个作为超算出现的计算机,已经变成了数据中心。它可以输出token,摇身一变成为了「AI工厂」。而这个「AI工厂」,正在创造和生产巨大价值的东西。19世纪90年代末,尼古拉·特斯拉发明了AC Generator,而现在,英伟达正创造可以输出token的AI Generator。英伟达给世界带来的是,加速计算正引领新一轮产业革命。人类首次实现了,仅靠3万亿美元的IT产业,创造出能够直接服务于100万亿美元产业的一切东西。传统的软件工厂,到如今AI工厂的转变,实现了CPU到GPU,检索到生成,指令到大模型,工具到技能的升级。从Blackwell GPU到超级「AI工厂」
接下来就让我们看看,英伟达是如何将一颗颗地表最强的Blackwell芯片,变成一座座超级「AI工厂」的。注意看,下面这块是搭载了Blackwell GPU的量产级主板。而在这里,我们可以清晰地看到,两个连在一起的Blackwell芯片。在8年里,每一代英伟达芯片的Flops,都增长了1000倍。即使和摩尔定律最好的时刻相比,Blackwell算力的提升也是惊人的。比如,训练一个1.8万亿参数、8万亿token的GPT-4所用的能耗,直接降至1/350!Pascal需要消耗的,是1000吉瓦时,这就意味着,它需要一个1000吉瓦的数据中心。(1吉瓦=1000兆瓦)而且如果这样的数据中心真的存在的话,训练也GPT-4也需要整整一个月的时间。这也就是为什么,ChatGPT这样的LLM, 在八年前是根本不可能存在的。如今有了Blackwell,过去的1000吉瓦时直接可以降到3吉瓦时。可以说,Blackwell就是为了推理,为了生成token而生的。它直接将每token的能量降低了45000倍。在以前,用Pascal产生1个token的消耗,相当于两个200瓦的灯泡运行2天。让GPT-4生成一个单词,大概需要3个token。这根本不可能让我们得到如今和GPT-4聊天的体验。而现在,我们每个token可以只使用0.4焦耳,用很少的能量,就能产生惊人的token。当我们从DGX扩展到大型AI超算,Transformer可以在大规模数据集上训练。而下一代AI,则需要理解物理世界。然而如今大多数AI并不理解物理规律。其中一种解决办法,是让AI学习视频资料,另一种,则是合成数据。第三种,则是让计算机互相学习!本质上就和AlphaGo的原理一样。巨量的计算需求涌来,如何解决?目前的办法就是——我们需要更大的GPU。英伟达将两块目前能造出来的最大尺寸的芯片,用一条10TB/s的链路链接起来;然后再把它们放到同一个计算节点上,和一块Grace CPU相连。在训练时,它被用于快速检查点;而在推理和生成的场景,它可以用于储存上下文内存。而且,这种第二代GPU还有高度的安全性,我们在使用时完全可以要求服务器保护AI不受偷窃或篡改。并且,Blackwell中采用的是第5代NVLink。通过该系统,我们可以测试每一个晶体管、触发器、片上内存和片外内存,因此我们可以当场确定某个芯片是否出现故障。基于此,英伟达将拥有十万个GPU超算的故障间隔时间,缩短到了以分钟为单位。因此,如果我们不发明技术来提高超算的可靠性,那么它就不可能长期运行,也不可能训练出可以运行数月的模型。如果提高可靠性,就会提高模型正常的运行时间,而后者显然会直接影响成本。最后,老黄表示,解压缩引擎的数据处理,也是英伟达必须做的最重要的事之一。通过增加数据压缩引擎、解压缩引擎,就能以20倍的速度从存储中提取数据,比现在的速度要快得多。超强风冷DGX & 全新液冷MGX
Blackwell是一个重大的跃进,但对老黄来说,这还不够大。英伟达不仅要做芯片,还要制造搭载最先进芯片的服务器。拥有Blackwell的DGX超算,在各方面都实现了能力跃升。集成了Blackwell芯片的最新DGX,能耗仅比上一代Hopper提升了10倍,但FLOPS量级却提升了45倍。下面这个风冷的DGX Blackwell,里面有8个GPU。而对应散热器的尺寸也很惊人,达到了15kW,并且是完全的风冷。如果你喜欢部署液冷系统呢?英伟达也有新型号MGX。单个MGX同时集成72个Blackwell GPU,且有最新的第五代NVLink每秒130TB的传输速度。NVLink将这些单独的GPU彼此连接起来,因此我们就得到了72个GPU的MGX介绍完芯片,老黄特意提到了英伟达研发的NVLink技术,这也是英伟达的主板可以越做越大的重要原因。由于LLM参数越来越多、越来越消耗内存,想要把模型塞进单个GPU已经几乎是不可能的事情,必需搭建集群。其中,GPU通信技术的重要性不亚于计算能力。英伟达的NVLink,是世界上最先进的GPU互连技术,数据传输速率可以堪称疯狂!因为如今的DGX拥有72个GPU,而上一代只有8个,让GPU数直接增加了9倍。而带宽量,则直接增加了18倍,AI FLops增加了45倍,但功率仅仅增加了10倍,也即100千瓦。人们之所以意识到它的重要性,是因为它将所有这些不同的GPU连接在一起,从而能够让十万亿参数的LLM运行起来。500亿个晶体管,74个端口,每个端口400GB,7.2TB每秒的横截面带宽,这本身就是个奇迹。而更重要的是,NVLink内部还具有数学功能,可以实现归约。对于芯片上的深度学习,这尤其重要。有趣的是,NVLink技术,大大拓宽了我们对于GPU的想象。支撑着72个GPU的骨架,就是NVLink的5000根电缆,能够在传输方面节省20kw的功耗用于芯片计算。老黄拿在手里的,是一个NVLink的主干,用老黄的原话说,它是一个「电气机械奇迹」NVLink做到的仅仅是将不同GPU芯片连接在一起,于是老黄又说了一句「这还不够宏大」。要连接超算中心内不同的主机,最先进的技术是「无限带宽」(InfiniBand)。但很多数据中心的基础设施和生态,都是基于曾经使用的以太网构建的,推倒重来的成本过高。因此,为了帮助更多的数据中心顺利迈进AI时代,英伟达研发了一系列与AI超算适配的以太交换机。网络级RDMA、阻塞控制、适应性路由、噪声隔离,英伟达利用自己在这四项技术上的顶尖地位,将以太网改造成了适合GPU之间点对点通信的网络。由此也意味着,数百万GPU数据中心的时代,即将到来。
在英伟达的AI工厂中,运行着可以加速计算推理的新型软件——NIM。这个容器里有大量的软件,其中包括用于推理服务的Triton推理服务器、优化的AI模型、云原生堆栈等等。现场,老黄再一次展示了全能AI模型——可以实现全模态互通。有了NIM,这一切都不是问题。它可以提供一种简单、标准化的方式,将生成式AI添加到应用程序中,大大提高开发者的生产力。现在,全球2800万开发者都可以下载NIM到自己的数据中心,托管使用。未来,不再耗费数周的时间,开发者们可以在几分钟内,轻松构建生成式AI应用程序。与此同时,NIM还支持Meta Llama 3-8B,可以在加速基础设施上生成多达3倍的token。这样一来,企业可以使用相同的计算资源,生成更多的响应。而基于NIM打造的各类应用,也将迸发涌现,包括数字人、智能体、数字孪生等等。老黄表示,「NVIDIA NIM集成到各个平台中,开发人员可以随处访问,随处运行 —— 正在帮助技术行业使生成式 AI 触手可及」。智能体组队,万亿美元市场
老黄称,几乎每个行业都需要客服智能体,有着万亿美元的市场前景。可以看到,在NIM容器之上,大多数智能体负责推理,去弄清任务并将其分解成多个子任务。还有一些,它们负责检索信息、搜索,甚至是使用工具等。未来,每家公司都将有大量的NIM智能体,通过连接起来组成一个团队,完成不可能的任务。GPT-4o躯壳,老黄做出来了
在人机交互这方面,老黄和Sam Altman可以说是想到一起了。他表示,虽然可以使用文字或语音形式的prompt给AI下达指令,但很多应用中,我们还是需要更自然的、更类人的交互方式。这指向了老黄的一个愿景——数字人。相比现在的LLM,它们可以更吸引人,更有同理心。GPT-4o虽是实现了无法比拟的类人交互,但缺少的是一个「躯体」。未来,品牌大使也不一定是「真人」,AI完全可以胜任。从客户服务,到广告、游戏等各行各业,数字人带来的可能将是无限的。
连接Gen AI的CG技术,还可以实时渲染出逼真的人类面部。
低延迟的数字人处理,遍及全球超过100个地区。
这是由英伟达ACE提供的魔力,能够为创建栩栩如生的数字人,提供相应的AI工具。现在,英伟达计划在1亿台RTX AI个人电脑和笔记本电脑上,部署ACE PC NIM微服务。这其中包括英伟达首个小语言模型——Nemotron-3 4.5B,专为在设备上运行而设计,具备与云端LLM相似的精度和准确性。此外,ACE数字人类AI新套件还包括基于音轨生成身体手势——NVIDIA Audio2Gesture,即将推出。老黄表示,「数字人类将彻底改变各个行业,ACE提供的多模态LLM和神经图形学的突破,使我们更接近意图驱动计算的未来,与计算机的交互将如同与人类的交互一样自然」。
Hopper和Blackwell系列的推出,标志着英伟达逐渐搭建起完整的AI超算技术栈,包括CPU、GPU芯片,NVLink的GPU通信技术,以及NIC和交换机组成的服务器网络。如果你愿意的话,可以让整个数据中心都使用英伟达的技术。这足够大、足够全栈了吧。但是老黄表示,我们的迭代速度还要加快,才能跟上GenAI的更新速度。今天的演讲中,老黄再次实锤官宣GPU年更。但是他又紧跟着叠了个甲,说自己可能会后悔。无论如何,我们现在知道了,英伟达不久后就会推出Blackwell Ultra,以及明年的下一代的Rubin系列。
除了芯片和超算服务器,老黄还发布了一个所有人都没有想到的项目——数字孪生地球「Earth-2」。这也许是世界范围内最有雄心的项目(甚至没有之一)。而且根据老黄的口吻推测,Earth-2已经推进了数年,今年取得的重大突破才让他觉得,是时候亮出来了。为什么要为建造整个地球的数字孪生?是要像小扎的元宇宙那样,把社交和互动都搬到线上平台吗?他希望在Earth-2的模拟,可以预测整个星球的未来,从而帮我们更好地应对气候变化和各种极端天气,比如可以预测台风的登陆点。Earth-2结合了生成式AI模型CorrDiff,基于WRF数值模拟进行训练,能以12倍更高的解析度生成天气模型,从25公里范围提高到2公里。不仅解析度更高,而且相比物理模拟的运行速度提高了1000倍,能源效率提高了3000倍,因此可以在服务器上持续运行、实时预测。而且,Earth-2的下一步还要将预测精度从2公里提升到数十米,同时考虑城市内的基础设施,甚至可以预测到街道上什么时候会刮来强风。而且,英伟达想数字孪生的,不止是地球,还有整个物理世界。对于这个狂飙突进的AI时代,老黄大胆预测了下一波浪潮——物理AI,或者说是具身AI。它们不仅需要有超高的认知能力,可以理解人类、理解物理世界,还要有极致的行动力,完成各种现实任务。想象一下这个赛博朋克的未来:一群机器人在一起,像人类一样交流、协作,在工厂里创造出更多的机器人。而且,不仅仅是机器人。一切能移动的物体都会是自主的!在多模态AI的驱动下,它们可以学习、感知世界,理解人类指令,并进化出计划、导航以及动作技能,完成各种复杂任务。那要怎样训练这些机器人呢?如果让他们在现实世界横冲直撞,代价要比训练LLM大得多。正像LLM可以通过RLHF进行价值观对齐一样,机器人也可以在遵循物理规律的数字孪生世界中不断试错、学习,模仿人类行为,最终达到通用智能。Nvidia的Omniverse可以作为构建数字孪生的平台,集成Gen AI模型、物理模拟以及动态实时的渲染技术,成为「机器人健身房」。志在做全栈的英伟达也不仅仅满足于操作系统。他们还会提供用于训练模型的超算,以及用于运行模型的Jetson Thor和Orin。为了适应不同应用场景下的机器人系统,英伟达的Omniverse将逐步扩展为Warehouse生态系统。这个生态将无所不包,从搭配应用程序的SDK和API,到运行边缘AI计算的接口,再到最底层的可定制芯片。在全栈产品方面,英伟达就是想要做自己的「全家桶」,让别人无路可走。为了让这个AI 机器人时代看起来更真实,演示的最后,9个和老黄有同样身高的机器人一同登场。正如老黄所说的,「这不是未来,这一切都正在发生」。https://www.nvidia.cn/events/computex/?ncid=so-wech-642406