Bendi新闻
>
让CPU跑大模型该怎么做?阿里云交出答卷:AI推理速度飙升7倍

让CPU跑大模型该怎么做?阿里云交出答卷:AI推理速度飙升7倍

阿里云ECS g8i整机性能最高提升85%,可支撑720亿参数规模的大语言模型。
作者 |  程茜
编辑 |  漠影

AI应用落地加速,对推理的性能提出了更加苛刻的要求。

就在上周,阿里云重磅升级了第八代企业级通用计算实例ECS g8i,国内首款搭载英特尔第五代至强可扩展处理器Emerald Rapids的实例。相比上一代,g8i整机性能最高提升85%,AI推理性能最高提升7倍,可支撑720亿参数规模的大语言模型,帮助中小规模模型起建成本降低50%

阿里云ECS g8i的发布证明,为AI大模型提供算力的不只有GPU和AI芯片,基于CPU的通用算力正在打破过去业界的固有认知
钉钉联合国际知名咨询机构IDC预测,随着AIGC技术发展,智能化应用将呈现爆发式井喷,2024年全球将出现5亿个新应用,不同应用对算力的需求将是多样化的,这一背景下,业内开始探索CPU算力在AI推理的潜力。
在阿里云第八代企业级通用计算实例ECS g8i发布之际,智东西与阿里云弹性计算产品线副总经理王志坤、阿里云弹性计算高级产品专家姬少晨进行了深入交流,深度探讨CPU算力在AI推理方面的独特优势,以及面临大量AI创新应用的涌现云计算提供商的新思考。

01.
整机性能提升85%
国内率先商业化


算力无疑是此次生成式AI浪潮的焦点,随着大量AI创新应用走向落地,企业对于大模型推理的算力需求正在发生变化。
瞄准企业对AI推理算力的多元化需求,已经正式对外商业化的阿里云第八代企业级实例ECS g8i,在计算、存储、网络和安全等能力方面实现全方位提升。
在底层通用能力提升方面,阿里云ECS g8i实例基于阿里云自研的「CIPU+飞天」计算体系架构,搭载了第五代英特尔至强可扩展处理器,使得单核性能提升25%,核密度提升50%。L3缓存从提升6倍达到320MB,内存速率提升75%达到5600MT/s,并于国内率先商业化上线。
CIPU作为高效核心引擎,将云上的计算、存储、网络等能力调度以提升计算效率。阿里云ECS g8i实例在ESSD云盘方面提供了100万IOPS,搭载NVMe使得存储延迟低至百微秒。
更强的单核性能、更高的核密度、更大的缓存、更快的内存的综合能力下,阿里云ECS g8i整机性能提升达到85%。

值得一提的是,阿里云还将第五代英特尔至强可扩展处理器的QAT、AMX等加速器能力融入到自研的虚拟化技术并实现性能零损耗,用户以最小规格2vCPU即可启用加速器能力。
同时,阿里云自研Alibaba Cloud Linux3操作系统是业界首家全量优化适配英特尔加速器,真正实现从芯片、虚拟化再到操作系统的整体优化,进一步降低加速器技术门槛,让用户真正享受技术普惠。

02.
阿里云与英特尔强强联合
“压榨”CPU为AI提速


大模型在训练环节需要处理海量数据,因此对算力性能要求较高,GPU也被公认为更适用于大模型训练。但在AI推理阶段,随着CPU性能的提升,在部分场景下基于CPU的通用计算性价比更高。
姬少晨坦言,大模型推理工作负载主要面临首包时延、吞吐性能上的挑战,如果只是看并行算力、浮点算力、内存带宽、执行效率和网络延时等指标,很容易草率地认为CPU不适合做AI计算。
但阿里云ECS g8i的出现可以说是生成式AI发展突飞猛进之际,云计算提供商给企业提供的新选择。
阿里云ECS g8i在AI能力的提升,背后是阿里云与英特尔的深度合作。最为关键的是CPU的定制化改造。姬少晨说:“我们在英特尔设计芯片的早期就深度沟通交流,最后的结论是直接在第五代英特尔至强CPU的每个核心里增加加速器AMX。”
第五代英特尔至强可扩展处理器提供的AMX高级矩阵扩展,增强了CPU的并行计算能力, 可以给企业客户提供平台化、统一、弹性能力,带来了革命性的AI性能提升。
阿里云ECS g8i实例通过AMX加速,逐步提升了CPU做并行算力的能力,将其中的差距逐步缩小。同时,基于阿里云自研的CIPU架构优势,通过云上弹性扩展的天然优势,屏蔽单实例内存带宽劣势,依托阿里云自研的eRDMA超低延时弹性网络,解决网络通讯的痛点。
基于以上在并行计算、内存带宽、网络延时等方面的优化,阿里云ECS g8i不仅可以更迅速地响应中小规模参数模型,还可胜任720亿参数级别的大语言模型。
在中小模型方面,阿里云ECS g8i实例运行知识检索、问答系统及摘要生成等AI工作负载时,起建成本相比传统GPU方案下降50%。此外,配合阿里云平台的Spot抢占式实例,成本优势将进一步凸显,进一步降低AI推理成本。
对于超大规模参数的模型来讲,通常会通过模型并行、流水线并行切分到AI集群,这个时候网络通讯成了主要的性能瓶颈。基于eRMDA网络构建的ECS g8i实例集群拥有超低延时网络和高弹性优势,可支撑720亿参数级别的大语言模型分布式推理,推理性能随集群规模接近线性加速,并可支持超过32batchsize的超大参数规模的AI模型负载,运行文生图、AI生成代码、虚拟助手以及创意辅助工具等AI工作负载。
实际测试中,通义千问70B参数超大模型中,大在输入小于500字情况下,首包延时小于3秒,每秒可生成7个Token

同时在安全方面,基于机密计算,阿里云ECS g8i实例保证企业云上数据可用不可见,为企业后续数据上云、业务上云打好了基础。
CPU算力还有更为关键的一大优势是资源供应。GPU的缺货潮仍然没有停息,因此短期内其价格不会大幅下降也不会有大量供应,而云上CPU的资源供应能力更优。“未来在AI推理场景的算力需求满足上,CPU与GPU算力会互为补充。根据客户在性能表现、售卖模式、供应能力等综合考量下的实际应用诉求,CPU和GPU将互相配合、共同支撑AI推理的算力需求。”姬少晨补充道。

03.
结语:CPU上跑AI
缓解推理算力焦虑


大量AI创新应用涌现已经成为业界共识,在AI时代既需要云上算力更具灵活性,还要有更强的加速能力。与此同时,基于云端的算力交付成为企业使用算力一个越来越重要的场景和途径。
因此,阿里云和英特尔联手探索CPU在AI推理场景的潜力。王志坤谈道,阿里云和英特尔集中投入大量资源进行研发的关键就是,双方对于客户需求场景的共同的判断和使能,使客户获得算力的方式比传统方式更迅捷、更高性价比、更弹性。
随着AI应用趋于盛行,阿里云与英特尔强强联手打造的这一新方案,将为加速AI创新应用落地提供新的路径。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)



微信扫码关注该文公众号作者

来源:智东西

相关新闻

大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一两万字实录:该怎么让机器人吃下大模型?丨GAIR live“我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!今日Arxiv最热NLP大模型论文:AllenAI最新研究:让AI从简单学起,竟然能解决难题?大模型学不了推理?语言≠思维,一篇Nature让AI社区炸锅了今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!代码都让AI写,CS还有前途吗?加州大学伯克利分校:CDSS申请人数飙升48%!还不试试AI大模型?能让你少加点班!对话南洋理工大学安波教授:如何让大语言模型适应动态环境?丨IJAIRR全球最强开源模型一夜易主,1320亿参数推理飙升2倍全球最强开源模型一夜易主,1320亿参数推理飙升2倍!复旦大学最新研究:如何让大模型敢回答“我不知道”?从短剧到 AI 大模型,新兴行业如何让组织「跟上」业务?无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行AI大模型有望再扩1000倍!剑桥耶鲁康奈尔:PNN是变革关键李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 2024今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?单卡A100实现百万token推理,速度快10倍,这是微软官方的大模型推理加速AI工具大揭秘:如何10倍提升你的工作效率?加速知识检索:伯克利&DeepMind联合研究,RaLMSpec让语言模型服务飞速提升2-7倍!尹建莉对话陈美龄:如果家长甘于做平庸的大多数,如何让孩子突出呢?让ChatGPT-4o写了一篇关于AI的高考作文,你猜国内的大模型会打几分?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。