Bendi新闻
>
谷歌发布了第六代TPU芯片

谷歌发布了第六代TPU芯片

6月前

👆如果您希望可以时常见面,欢迎标星🌟收藏哦~


来源:内容来自半导体行业观察(ID:icbank)综合,谢谢。


谷歌云今天宣布即将推出迄今为止最强大、最节能的张量处理单元 Trillium TPU。


谷歌的 TPU 与 Nvidia 公司的图形处理单元类似,后者已成为运行生成人工智能工作负载的最受欢迎的硬件。谷歌希望通过 Trillium 为企业提供 Nvidia GPU 的替代品。


Trillium今天在Google I/O 2024上推出,是该公司的第六代 TPU。它旨在为最苛刻的生成式人工智能模型和工作负载提供支持,提供比现有 TPU 显着增强的计算、内存和网络功能。


谷歌云机器学习、系统和云 AI 副总裁兼总经理 Amin Vadhat 表示,与谷歌宣布的目前最强大的芯片TPU v5e相比,Trillium TPU 的峰值计算性能提高了 4.7 倍。Cloud Next 去年八月。为了实现更高的性能,Google 投入了大量精力来扩展执行计算的矩阵乘法单元或 MXU 的大小,并提高了其整体时钟速度。


此外,Trillium GPU 的高带宽内存容量和带宽是原来的两倍,而芯片间互连带宽也增加了一倍。Amin 表示,这些增强功能将显着缩短大型语言模型的训练时间和服务延迟。


另一项新的创新是第三代SparseCore,它是一个专业加速器,用于处理先进的基于人工智能的排名和推荐系统中的超大嵌入。借此,Trillium TPU 将能够训练下一代基础人工智能模型,并以更低的延迟和成本为它们提供服务。Amin 表示,与此同时,它们的能效提升高达 67%,这意味着比 TPU v5e 更低的运行成本和更小的碳足迹。


谷歌表示,Trillium 将于今年晚些时候推出,能够在单个高带宽、低延迟 Pod 中扩展到超过 256 个 TPU。通过利用 Google 在 Pod 级可扩展性、多切片技术和Titanium 智能处理单元方面的进步,用户将能够链接数百个 Trillium TPU 的单独 Pod,以构建 PB 级超级计算机和数据中心网络。


Google Cloud 的一些客户已经制定了使用 Trillium TPU 的计划。例如,谷歌DeepMind将使用新芯片来训练和服务下一代谷歌Gemini模型,并且比以前更快、更高效、延迟更低。此外,一家名为Deep Genomics Inc. 的公司正计划使用 Trillium TPU 来推进人工智能药物发现。


Deep Genomics 创始人兼首席信息官 Brendan Frey 表示:“我们的使命是创建和应用先进的人工智能模型,以突破 RNA 治疗领域的可能性界限。”他希望 Trillium TPU 能够改善其人工智能的训练和运行基础模型100倍。“先进的人工智能模型突破了 RNA 治疗领域的可能性界限。”


Trillium TPU 还将与Google Cloud 的 AI 超级计算机项目集成,该项目是一个超级计算机平台,旨在运行尖端的 AI 工作负载。AI超级计算机将最先进的TPU和GPU与开源软件框架和灵活的消费模型集成在一起,以支持极其强大的新型AI工作负载的开发。


当 Trillium 推出时,它将作为另一个硬件选项添加到 AI 超级计算机中,与谷歌的 TPU v5p 和 Nvidia 的 H100 GPU 一起。该公司还计划将 Nvidia 的新型 Blackwell GPU 与 AI 超级计算机集成,但尚未透露具体时间,因此尚不清楚 Trillium TPU 是否会首先推出。


谷歌推出第六代 Google Cloud TPU Trillium


生成式人工智能正在改变我们与技术互动的方式,同时为业务影响带来巨大的效率机会。但这些进步需要更大的计算、内存和通信来训练和微调最有能力的模型,并以交互方式为全球用户群提供服务。十多年来,谷歌一直在开发定制的人工智能专用硬件、张量处理单元(TPU),以推动规模和效率的前沿发展。


该硬件支持我们今天在 Google I/O 上宣布的多项创新,包括Gemini 1.5 Flash、Imagen 3和Gemma 2等新型号;所有这些模型都经过 TPU 训练并提供服务。为了提供下一代前沿模型并让您也能做到这一点,我们很高兴推出第六代 TPU Trillium,它是迄今为止性能最强、能效最高的 TPU。


与 TPU v5e 相比,Trillium TPU 的每芯片峰值计算性能提高了 4.7 倍,令人印象深刻。我们将高带宽内存 (HBM) 容量和带宽增加了一倍,并将 TPU v5e 的芯片间互连 (ICI) 带宽增加了一倍。此外,Trillium还配备了第三代SparseCore,这是一种专用加速器,用于处理高级排名和推荐工作负载中常见的超大嵌入。Trillium TPU 可以更快地训练下一波基础模型,并以更少的延迟和更低的成本为这些模型提供服务。至关重要的是,我们的第六代 TPU 也是最具可持续性的:Trillium TPU 的能效比 TPU v5e 高出 67% 以上。


Trillium 可以在单个高带宽、低延迟 Pod 中扩展到多达 256 个 TPU。除了这种 Pod 级可扩展性之外,借助多切片技术和Titanium 智能处理单元 (IPU ),Trillium TPU 还可以扩展到数百个 Pod,从而连接建筑物级超级计算机中的数万个芯片,这些芯片通过每秒数 PB 的速度互连数据中心网络。


十多年前,谷歌认识到需要首款用于机器学习的芯片。2013 年,我们开始开发世界上第一个专用人工智能加速器 TPU v1,随后于 2017 年推出了第一个云 TPU。如果没有 TPU,Google 的许多最受欢迎的服务(例如实时语音搜索、照片对象识别、交互式语言翻译以及 Gemini、Imagen 和 Gemma 等最先进的基础模型都是不可能的。事实上,TPU 的规模和效率为 Google Research 的Transformers基础工作奠定了基础,而 Transformers 是现代生成人工智能的算法基础。


TPU 是专为神经网络而设计的,我们始终致力于改善 AI 工作负载的训练和服务时间。与 TPU v5e 相比,Trillium每芯片的峰值计算量提高了 4.7 倍。为了达到这种性能水平,我们扩大了矩阵乘法单元 (MXU)的大小并提高了时钟速度。此外,SparseCores 通过战略性地卸载来自 TensorCores 的随机和细粒度访问来加速嵌入繁重的工作负载。


HBM 容量和带宽加倍使 Trillium 能够处理具有更多权重和更大键值缓存的更大模型。下一代 HBM 可实现更高的内存带宽、更高的能效以及灵活的通道架构,以提高内存吞吐量。这可以缩短大型模型的训练时间和服务延迟。这是模型权重和键值缓存的两倍,访问速度更快,计算能力更强,可加速 ML 工作负载。ICI 带宽加倍使训练和推理作业能够扩展到数万个芯片,这得益于定制光学 ICI 互连与 Pod 中 256 个芯片的战略组合以及Google Jupiter Networking(将可扩展性扩展到集群中的数百个 Pod)。


Trillium TPU 将为下一波人工智能模型和代理提供动力,我们期待帮助我们的客户获得这些先进的功能。例如,自动驾驶汽车公司Nuro致力于通过机器人技术通过使用 Cloud TPU 训练模型来创造更美好的日常生活;Deep Genomics正在利用人工智能为药物发现的未来提供动力,并期待他们的下一个由 Trillium 提供支持的基础模型将如何改变患者的生活;谷歌云年度人工智能合作伙伴德勤将提供 Trillium,通过生成式人工智能实现业务转型。对 Trillium TPU 上长上下文、多模式模型的训练和服务的支持也将使Google DeepMind能够比以往更快、更高效、延迟更低地训练和服务未来几代 Gemini 模型。


Trillium TPU 是 Google Cloud人工智能超级计算机的一部分,这是一种专为尖端人工智能工作负载而设计的突破性超级计算架构。它集成了性能优化的基础设施(包括 Trillium TPU)、开源软件框架和灵活的消费模型。我们对 JAX、PyTorch/XLA 和 Keras 3 等开源库的承诺为开发人员提供支持。对 JAX 和 XLA 的支持意味着为任何上一代 TPU 编写的声明性模型描述直接映射到 Trillium TPU 的新硬件和网络功能。我们还与 Hugging Face 在 Optimum-TPU 上合作,以简化模型训练和服务。


“我们与 Google Cloud 的合作使 Hugging Face 用户可以更轻松地在 Google Cloud 的 AI 基础设施(包括 TPU)上微调和运行开放模型。我们很高兴能够通过即将推出的第六代Trillium TPU进一步加速开源 AI ,并且我们预计开放模型将继续提供最佳性能,因为与上一代相比,每个芯片的性能提高了 4.7 倍。我们将通过我们新的 Optimum-TPU 库,让所有 AI 构建者轻松获得 Trillium 的性能!” - Hugging Face 产品主管 Jeff Boudier说。


自 2017 年以来,Sada 每年都荣获年度合作伙伴奖,并提供 Google 云服务以实现最大影响。


作为值得骄傲的 Google Cloud 首要合作伙伴,SADA 与全球知名的 AI 先驱有着 20 年的悠久历史。我们正在为数千名不同的客户快速集成人工智能。凭借我们丰富的经验和人工智能超计算机架构,我们迫不及待地想帮助我们的客户利用 Trillium 释放生成人工智能模型的下一个前沿领域的价值。- Miles Ward,Sada 首席技术官说


AI 超级计算机还提供 AI/ML 工作负载所需的灵活消费模型。动态工作负载调度程序 (DWS) 让访问 AI/ML 资源变得更加容易,并帮助客户优化支出。Flex 启动模式可以通过同时调度所需的所有加速器来改善突发工作负载(例如训练、微调或批处理作业)的体验,无论您的入口点是什么:Vertex AI Training、Google Kubernetes Engine (GKE) 或 Google Cloud Compute引擎。


Lightricks 很高兴能够通过 AI 超级计算机的性能提升和效率提升来重新获得价值。


“自 Cloud TPU v4 以来,我们一直在将 TPU 用于文本到图像和文本到视频模型。凭借 TPU v5p 和 AI 超级计算机的效率,我们的训练速度实现了 2.5 倍的惊人提升!第六代 Trillium TPU 令人难以置信,与上一代相比,每芯片的计算性能提高了 4.7 倍,HBM 容量和带宽提高了 2 倍。当我们扩展文本到视频模型时,这对我们来说来得正是时候。我们还期待使用 Dynamic Workload Scheduler 的弹性启动模式来管理我们的批量推理作业并管理我们未来的 TPU 预留。” - Lightricks 核心生成人工智能研究团队负责人Yoav HaCohen 博士说。


Google Cloud TPU 是人工智能加速领域的前沿技术,经过定制设计和优化,可为大规模人工智能模型提供支持。TPU 独家通过 Google Cloud 提供,为训练和服务 AI 解决方案提供无与伦比的性能和成本效益。无论是复杂的大型语言模型还是图像生成的创造性潜力,TPU 都有助于开发人员和研究人员突破人工智能世界的可能界限。


参考链接

https://siliconangle.com/2024/05/14/google-cloud-unveils-trillium-tpu-powerful-ai-processor-far/


https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus/



点这里👆加关注,锁定更多原创内容

END


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。



今天是《半导体行业观察》为您分享的第3766期内容,欢迎关注。


推荐阅读


EUV光刻机重磅报告,美国发布

碳化硅“狂飙”:追赶、内卷、替代

芯片巨头,都想“干掉”工程师!

苹果,玩转先进封装

GPU的历史性时刻!

大陆集团,开发7nm芯片

张忠谋最新采访:中国会找到反击方法

EUV光刻的新“救星”

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank


喜欢我们的内容就点“在看”分享给小伙伴哦

微信扫码关注该文公众号作者

来源:半导体行业观察

相关新闻

谷歌芯片,全球第三了谷歌被指控 TPU芯片盗用他人专利!最高或赔偿50亿美元芯片战争早已打响!谷歌15个月打造首个TPU,欲和老黄平起平坐奥特曼百万年薪挖角谷歌TPU人才,欲砸7万亿实现「芯片自由」?OpenAI自研芯片最新进展曝光苹果 AI 版 iOS 登场,模型使用谷歌芯片;Meta 推新模型,与黄仁勋探讨 AI 与开源生态的未来丨AI情报局苹果证实用谷歌定制芯片训练其AI智能中国移动发布了一颗芯片:本土首颗400Gbps DPU谷歌自研芯片的10年AI搜索引擎来了!谷歌放大招,发布最强AI模型,语音功能正面刚OpenAI芯片涉及侵权,谷歌被索赔16.7 亿美元用GPT-4纠错GPT-4!OpenAI推出CriticGPT模型;谷歌Gemma 2发布,与第一代相比性能更高丨AIGC日报21岁郑钦文夺得网球女单金牌,手握劳力士等多个赞助;25亿美元独角兽CEO携30员工卖身谷歌;英伟达新AI芯片推迟三个月丨邦早报谷歌放大招,AI搜索引擎来了,发布最强AI模型!发布会现场:总共提了120次AI、视频模型登场......豪赌!哈佛辍学华人竟然发布了只支持Transformer一种算法的AI芯片,一张顶20张H100 ,比GB200快刚刚,OpenAI又双叒叕鸽了!没等来“草莓”发布,只敷衍发了评测集,网友:拿这来抢谷歌发布会风头?昨晚,谷歌发布「AI 超级全家桶」,但最大的创新却被 OpenAI 狙击了发改委给芯片企业发红包了!最新税收优惠政策发布重磅!英伟达发布全球最强 AI 芯片,人形机器人也来了谷歌开源系模型第二代免费开放!27B媲美LLaMA3 70B,单H100或TPU主机可跑现场直击GTC|最科幻发布会,性能翻30倍的恐怖Blackwell芯片,黄仁勋宣告“新工业革命”来了安卓或从谷歌剥离,宁德时代首家门店开业,中芯国际高端芯片供不应求,高合进入司法预重整,这就是今天的其他大新闻!谷歌超 25 亿美金收购 Character AI;英伟达回应 AI 芯片遇重大设计缺陷:下半年增加量产丨AI情报局BB鸭 | iPhone开放NFC;小米汽车回应碰撞视频;谷歌发布Pixel系列手机;郑刚再次炮轰罗永浩AI VC Radical Ventures 融资近 8 亿美元,李飞飞、Hinton支持;谷歌发布四款 AI 手机丨AI情报局
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。