Bendi新闻
>
明年推出256核3nm CPU!Ampere公布未来路线图,用CPU加速AI计算

明年推出256核3nm CPU!Ampere公布未来路线图,用CPU加速AI计算

6月前

下一代AmpereOne CPU已准备就绪,性能比现有市场上任何CPU高出40%以上。
作者 |  ZeR0
编辑 |  漠影
芯东西5月17日报道,今日,美国明星云原生CPU创企Ampere Computing公布年度战略和全新CPU产品路线图更新,宣布2025年将推出下一代旗舰产品3nm AmpereOne CPU,最多支持256核和12通道DDR5内存。

3nm AmpereOne CPU将采用与现有192核AmpereOne CPU相同的风冷散热解决方案。Ampere号称其性能“比当今市面上任何CPU都高出40%以上”。
Oracle已经在Ampere CPU上部署了Llama、Mistral等大语言模型。Llama 3已在Oracle Cloud的Ampere CPU上运行。性能数据显示,在没GPU的128核Ampere Altra CPU上运行Llama 3-8B,可实现与搭配x86 CPU的NVIDIA A10 GPU相同的性能,同时仅消耗1/3的电量。
同时,Ampere宣布与高通合作,利用高通的Cloud AI 100推理加速卡与Ampere CPU开发AI推理的联合解决方案,以解决全球最大的生成式AI大语言模型推理问题。
在AI平台联盟中,Ampere成立了UCIe工作组,将利用开放接口技术增强其CPU的灵活性,使其能够将其他客户IP整合到未来的CPU中。
新的AmpereOne OEM和ODM平台将在几个月内发货。其客户群正在不断扩大。


01.
“云计算和AI计算行业能效最高的CPU”


上一代AmpereOne采用5nm工艺节点,拥有192个单线程Ampere自研核心、大型云优化私有缓存、每核2MB二级缓存。

在AI方面,AmpereOne每个核心有2个128位向量单元,支持bf16、int8、int16、fp16等精度。
Ampere号称它是“云计算和AI计算行业中能效最高、性能最高的CPU”,每瓦性能比AMD Genoa高出50%,比Bergamo高出15%。

对于希望更新和整合旧基础设施以节省空间、预算和电力的数据中心,AmpereOne可为每个机架提供高达34%的性能提升。

在提高每机架性能方面,AmpereOne比AMD Genoa提高了58%,比Bergamo提高了42%。

在交付路线图时,Ampere考虑到数据中心部署的方便性,其CPU与行业标准设计兼容,无需使用液冷或非标准外形来更改设计。
Ampere内存标签有助于防止利用缓冲区溢出的恶意代码进行安全攻击,这些攻击可覆盖内存并公开安全数据。
启用Ampere内存标签扩展后,软件内存管理运行时会将密钥标签与每个软件关联起来。程序中的指针和存储器中具有相应数据的锁标签,这样可以确保程序的正确密钥标签访问正确的物理内存地址。
当程序正在执行和访问存储器时,SoC将每个指针标签与存储器标签进行比较,如果标签不匹配,则会标记错误并停止程序执行,从而有效地防止恶意攻击。
Ampere Quality of Service Enforcement能够在满足SLA的同时,对在单个SoC上同时运行的多个应用程序、 虚拟机或容器所使用的共享缓存和内存资源进行受控分配。

在具有不同需求的多租户环境中,应用程序争夺共享内存和缓存资源,每一种可能对带宽、延迟和容量都有自己的敏感度。AmpereOne确保分配最小阈值的共享资源,从而使对延迟敏感的应用程序不会受到另一个可能占用带宽的应用程序的负面影响。

这里是一个对延迟敏感的应用程序,如视频流,以红色显示,保证了共享缓存的分配;灰色应用程序可能是邮件服务器,具有第二优先级和较小的保证分配;而黑色应用程序可能是日志实用程序 ,没有优先级。这允许跨所有应用程序提供一致的性能和可预测的服务。
除了内存标签、QoS Enforcement和网格拥塞管理等现有功能外,Ampere还推出了一项新的FlexSKU功能,允许客户使用相同的SKU来解决横向扩展和纵向扩展用例。

02.
运行80亿参数Llama 3模型,
功耗只有x86 CPU+A10 GPU的1/3


“真正的艺术在于建设一种在相同功率下可以提供30%以上性能的产品,”Ampere Computing创始人兼CEO Renee James说,“我们认为未来的数据中心基础设施必须考虑如何用升级的AI计算改造现有的风冷环境,以及建设可持续的新型数据中心,从而适应电网上的可用电力。”

她谈道,Ampere有两个使命:建设高性能、可持续计算的未来,并使广大的行业合作伙伴和用户能够使用其产品,创建一个开放的生态系统,让Ampere CPU成为许多公司发明背后的引擎。
AI等颠覆性技术的出现引起数据量指数级增长,推动对更多数据中心和电力的需求。
据最新报道,国际能源机构预测全球数据中心电力需求量将从2022年的400多TWh攀升到2026年的1000TWh,大致相当于日本全国的用电量。

因此,随着AI计算加速,构建最大化的计算效率至关重要。
比如搜索工具,集成AI后将极大增加对电力的需求,一个典型的页面搜索平均耗电量是0.3Wh,而一个典型的ChatGPT请求处理需要耗电2.9Wh,近10倍的增长。
Ampere专注于应对AI带来的能效挑战。当运行最新Llama 3 80亿参数大语言模型时,企业可能默认使用一张NVIDIA A10 GPU搭配x86 CPU,这个配置可以提供每秒30个token的性能,而仅仅CPU和GPU就要消耗420W的电力。
如果用Ampere Altra Max 128核CPU来独立运行该模型,无需GPU,在提供同样性能的情况下,功耗只有1/3。

“低功耗曾经是低性能的代名词。Ampere已经证明事实并非如此。我们开创了计算效率的前沿,并在高效的计算范围内提供了超越传统CPU的性能。”Renee James说。

03.
支持高性能AI推理,比GPU方案大幅省钱


Ampere Computing首席产品官Jeff Wittich分享了Ampere对“AI计算”的愿景,将传统的云原生功能融合到AI。

“我们的Ampere CPU可以运行一系列工作负载——从最流行的云原生应用程序到 AI。这包括与传统云原生应用程序集成的AI,例如数据处理、Web服务、媒体交付等。”他谈道。

AI训练只占15%的AI总计算周期,动辄连续运行几天、几周乃至几个月,需要使用专用的AI训练硬件。而AI推理是一系列较小的、单独任务,每秒运行百万或十亿次,合计占用AI总计算周期的85%。
Ampere平台支持在没有GPU的情况下进行AI推理。先前经训练的模型,如用了TensorFlow、PyTorch、ONNX等常见框架,开箱运行即可得高性能。
Ampere宣布与NETINT联合推出解决方案,使用该公司的Quadra T1U视频处理芯片和Ampere CPU,使用OpenAI的Whisper模型实时转码360个直播频道,为40个流媒体提供实时多语言字幕。

构建完整的AI服务器,不仅要拓展AI方案的可访问性,而且要在服务器和机架层面提供性能和功耗最优化的方案,即意味着与基于GPU的方案相比,最高5倍的每美元性能。
据介绍,英伟达正在推广的高端AI解决方案DGX是一个10.2千瓦的大机柜,价格接近50万美元,大规模部署时需要占用很大的空间和数据中心基础设施,在运行像Whisper这样的AI模型时,每秒推理性能只有Ampere CPU的20%。
当没有完全加载AI需求时,GPU无法执行其他计算任务。由于对各种工作负载的需求会随着时间推移而波动,Ampere团队认为此时一个可运行从AI到Web服务器再到数据库的解决方案才是最佳的。

04.
结语:用CPU加速AI推理,
让数据中心更高效可持续


Ampere是一家开放平台公司,支持其他芯片供应商和合作伙伴连接到Ampere的计算CPU,并为不同的市场领域构建集成产品。该公司正将其他客户IP纳入其未来的CPU中,旨在构建一个开放的横向创新平台,不断扩大IP组合,满足一系列不同的数据中心需求。
Renee James还谈到对一些公司自研CPU、实现计算完全垂直化的看法。在她看来,这在理论上听起来不错,但在实践中存在一些问题,最重要的是对于大多数公司来说在经济或技术上都不可行。她相信行业必须在AI计算方面找到一个新方向,而Ampere的方法将引领数据中心走向更高效、更可持续的未来。






微信扫码关注该文公众号作者

来源:芯东西

相关新闻

申请吸引力增强?英伟达和佐治亚理工学院推出「AI超级计算机中心」,真“遥遥领先”了!北大计算机学院登国际AI顶刊!张铭教授团队160万数据训练生物活性基础模型,加速癌症药物研发美国AI战争再升级,全力阻止中国获得算力!或将禁止中国企业用云计算训模型AI创业吧!不缺计算资源那种全球大学计算机专业排名公布!澳洲大学,前百有这些用AI跑了上亿次计算,研究高考志愿18年的他说:生成一个好的志愿,最终靠学生自己不同专业毕业 5 年薪资排名公布:计算机工程排名第一!STEM收入比非 STEM普遍要高深入了解浮点运算——CPU和GPU算力是如何计算的单卡A100实现百万token推理!微软提出全新加速预填充稀疏计算方法【行业日报】特斯拉 Roadster 预计将于明年上市!苹果计划将在今年启动AI计划!ICML2024高分论文!大模型计算效率暴涨至200%,来自中国AI公司我国第三代自主超导量子计算机全球访问数据公布,美国竟然访问第一!Andrej Karpathy提出未来计算机2.0构想: 完全由神经网络驱动!网友炸锅了速递|曝孙正义抢英伟达的大客户并与供应商谈判!少赚 1500 亿美元后,寄托于 Arm 成为下一个英伟达,明年生产 AI 芯片AI驱动下的新能源材料研究、发现与 NVIDIA Modulus 加速材料计算|在线研讨会预告开发提速30%!中央计算变革下,全栈式域控HPC软件“抢跑”未来大模型时代的计算机视觉!CVPR 2024线上分享会全日程公布首位中国学者!ACM「计算机图形学名人堂」最新名单公布,北大陈宝权入选特斯拉毁约应届生,苹果或推出iPad原生计算器,Steam更新退款政策,剥离TikTok新法案通过,这就是今天的其他大新闻!AI破译2000年前「上古卷轴」登Nature头版!21岁计算机天才,谷歌华人工程师共获大奖聚焦|加拿大未来一年降息200个点?但房价今明年还要涨!?全国挂牌激增,这是卖不掉了GCSE计算机课程中将加入AI相关新内容,或增加编程比重?!AI早知道|Meta推出V-JEPA模型;英伟达首次公开超级计算机Eos苹果将在明年1月对 Siri 进行大升级/首款华为鸿蒙人形机器人正在工厂检测验证/比尔盖茨预言未来每个人都会有自己的 AI 助理
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。