“CPU跑中小模型推理,低首包时延和高吞吐性能指标都有惊喜。” “CPU能不能搞定大模型?”阿里云弹性计算产品线副总经理王志坤在2023年云栖大会期间被客户问。
“GPU太紧俏,我们买不到GPU训练模型。CPU供应充足,想看看CPU能不能做AI训练。”这位客户解释。AI训练就像学习解题的方法,要通过大量练习才能掌握,这时候同一时间做的练习题越多,效果也越好,所以AI训练需要并行计算能力强大的处理器。可CPU擅长的是通用计算,想做AI训练难度很大。但客户对AI计算的需求和痛点,给了王志坤启发和明确的信号。“在AI算力需求指数级增长,GPU可获得性不高的背景下,我们一定要挖掘各种算力的潜能,最大化弹性计算的价值和云计算的优势。”王志坤深知,“就算是解决AI算力稀缺的问题,成本也一定要可接受。用CPU做AI训练难度很大,但可以胜任AI推理。”推理就像是拿着学会的解题方法回答问题,对并行计算的要求降低。早在几年前,阿里云的团队就开始和英特尔探索CPU处理AI推理任务的可行性和优势。阿里云弹性计算产品线副总经理 王志坤
最新发布的第五代英特尔至强可扩展处理器AI推理性能实现的革命性升级,离不开阿里与英特尔的深度合作。
已于1月5日正式上线的阿里云第八代企业级通用计算实例g8i,可以胜任72B大模型的推理,6B、13B模型推理起建成本下降高达50%,通用计算成为了AI推理的全新选择。CPU的AI性能如何实现了革命性升级?阿里云的第八代企业级通用计算实例又有哪些独特之处?如果只是看并行算力、浮点算力、内存带宽等指标,很容易就得出CPU不适合做AI计算的结论。但国内首发第五代英特尔至强可扩展处理器的阿里云第八代企业级通用计算实例(g8i),破了CPU不适合处理AI任务的刻板印象。衡量大模型体验有两个非常重要的指标,首包时延和吞吐性能。“据通义千问平台的广泛实践经验,在模型对话场景,首包时延控制在3秒内,生成速度大于每秒5 Token,基本上属于可商用的状态。”阿里云高级产品专家姬少晨表示。1个Token对应中文的一个词(2-3个字),每秒5个Token相当于15个字,基本可以满足普通人的阅读需求。英特尔数据中心和人工智能集团至强客户解决方案事业部总经理李亚东判断的指标更严苛,200亿参数模型的推理,Token之间的时延低于150毫秒一般用户可以接受,100毫秒的速度(每秒10个Token)就可以大规模推广。阿里云第八代企业级通用计算实例(g8i)运行通义千问7B模型的结果超越了可以大规模推广的水平,首包时延小于1秒,生成速度是12 Tokens/s。更让人惊喜的是,起建成本相对于传统GPU方案可以降低50%或更多。“以通义千问7B模型的推理为例,在测试环境中我们使用了24vCPU,也就是硬件的12核CPU。如果使用GPU推理,需要一张A10 GPU,按照目录价格计算,24vCPU的价格是A10 GPU的50%。”姬少晨解释,“24vCPU规格的g8i推理6B、13B模型都能达到商用水平。”“13B的模型需要至少26G的显存,一张A10显存是24G,所以需要两张A10 GPU,这种情况24vCPU的ECS g8i实例依然能够支持。阿里云还有灵活的售卖模式,比如通过Spot抢占式实例,起建成本将会进一步降低。”姬少晨强调,“CPU的可获得性比GPU高很多,所以中小模型的推理,阿里云ECS g8i是个很好的选择。”13B参数模型推理不是CPU做AI推理的性能上限。使用阿里云ECS g8i实例4个集群96 vCPU的能力,部署72B参数超大模型,在输入小于500字的情况下,首包时延1秒(最长不高于3秒),生成速度是每秒7个Token,也完全是可用水平。阿里云ECS g8i实例还能推理更大参数的模型吗?“我们想告诉业界72B的模型能在CPU上也能跑起来,不会一味摸高,因为成本也是一个重要考量。”姬少晨告诉雷峰网“2024年将是AI应用创新的爆发的一年,不同的应用对算力有不同的需求,阿里云ECS g8i实例是在满足成本要求的同时,让通用计算CPU也能成为AI推理的新选择。”那不擅长AI任务的CPU又是如何支撑起AI推理呢?传统的CPU对AI推理不友好,但经过革命性升级的CPU不仅胜任AI推理,还有计算和内存解耦的优势。在压缩解压缩、加密等性能上,阿里云的客户一直希望能有专用的加速卡,这样就不用买超大算力。“为某个客户插加速卡,对于硬件资源要尽量统一池化的云计算并不现实,所以客户的专用加速一直没被满足。”姬少晨说,“我们在英特尔设计芯片的早期就深度沟通交流,最后的结论是直接在第五代英特尔至强CPU的每个核心里增加加速器AMX。”第五代英特尔至强可扩展处理器提供的AMX,增强了CPU的并行计算能力,带来了革命性的AI性能提升,与第四代至强相比AI推理性能提升42%,在阿里云ECS g8i实例中AI推理性能较上一代g7实例提升更是高达7倍。拥有更高核心数的第五代英特尔至强可扩展处理器,还升级了更快的内存,更大的三级缓存容量。全面的升级让第五代英特尔至强可扩展处理器不仅胜任AI推理任务,还充分发挥出了CPU的优势。“CPU的计算核心和内存解耦,是CPU做推理的一个优势。”王志坤解释,“因为CPU内存配比可以非常灵活,对于存储密集型的大模型非常友好。”比如,在第五代英特尔至强CPU的阿里云ECS g8i实例中,可以做到计算和内存1:2、1:4、1:8的配比,24v CPU 1:8配比可以有将近200G的内存,对多并发且时延不敏感型AI推理非常友好。阿里云对CPU有一系列云原生的诉求,包括更高性能、统一资源池、多租户隔离、更高稳定性,为此阿里云深度定制了第五代英特尔至强可扩展处理器。阿里云ECS g8i实例与英特尔深度合作并参与了第五代英特尔至强可扩展处理器的定制,相比第七代企业级实例核密度提升了50%,单核性能提升了25%,L3缓存也从上一代的整机48MB提升到了320MB,提升接近6倍;内存速率从上一代的3200MT/s提升到了5600MT/s,提升了75%。更强的单核性能、更高的核密度、更大的缓存、更快的内存,实现了阿里云第八代企业级实例整机相比上一代整机性能85%的提升。“阿里云和英特尔定制的CPU完全基于云原生的需求出发,把云上不需要的能力删减掉,把有效资源全部提拉到主频等一系列能力上。”姬少晨介绍,“比如,英特尔至强CPU中会有很多调度管控的组件,我们有CIPU做云上统一调度,深度定制芯片将进行资源置换,实现更好算力”CIPU的价值并不局限于此,CIPU这个超高性能的引擎,IOPS最高到3000万,网络时延最低做到8微秒,能解决CPU性能提升之后面临的内存带宽不足和网络时延增加的挑战。单个实例内存不足的情况下,云计算通过分布式计算,快速横向扩容,提升整体带宽。“通过拓展的方式可以解决内存带宽的挑战,但还要面对集群后效率下降的问题。”姬少晨指出,传统VPC集群,从1节点到4节点,性能提升了2倍。基于阿里云的eRDMA的集群,从1节点到4节点性能提升3.36倍,集群效率接近90%。极限情况下的实测数据显示,阿里云ECS g8i实例的专有算力加速,在推理的场景性能最高提升7倍,内存数据库RocksDB速度提升2倍,压缩解压缩的性能提升了70倍,加解密的速度最高提升了6倍。这些加速在阿里云ECS g8i实例上完全免费,这是阿里云一直坚持的技术普惠。“云原生还强调硬件的可分割、可细颗粒度化。”姬少晨说,“我们提供各种灵活的产品组合,匹配客户的应用。最小2vCPU实例也能体验到阿里云ECS g8i实例加速能力。不需要买整台服务器,大幅降低了学习新技术的成本和门槛。”稳定性也是阿里云企业级实例的优势。阿里云ECS g8i实例全部基于英特尔的铂金系列商业化芯片定制,确保CPU本身就具备最强的稳定性。阿里云在稳定性方面的工作不止于此,在英特尔第五代至强发布前的3个月到半年,阿里云就会联合英特尔在阿里云的系统中进行稳定性测试,确保产品发布即具备高稳定性。无论是从性能、成本、稳定性还是降低门槛和可获得性的角度,阿里云ECS g8i实例都为需要中小模型推理的用户提供了更多的一个选择。数据、算法和算力是智能时代的三驾马车,作为客户核心资产的数据和算法(模型),如何保证其在云上的安全始终是大家关注的问题。阿里云在计算的原生安全领域持续重兵投入,比如阿里云联合英特尔在阿里云第七代企业云实例全球首发了SGX2.0,通过机密计算技术,能够实现数据的可用不可见。“SGX2.0已经有大量客户,但都是有很强开发能力的高科技公司。”姬少晨解释,“因为SGX有技术门槛,需要客户拆解出需要加密的核心部分,这影响了机密计算的全面铺开。”几年前,阿里云就持续和英特尔沟通,希望有一个更易用的安全技术,TDX(Intel Trusted Domain Extension)就此诞生。如果把SGX比做一个保险箱,TDX就像是一个容量更大的保险库,把虚拟机做成安全隔离的环境,不需任何改造,就可以享受到机密计算带来的安全,能防御外部的攻击,宿主也无法窥探到用户的数据,做到数据的隐私安全。阿里云打造的是端到端的数据安全,从阿里云底层的CIPU标配TPM硬件和芯片开始,到上层虚拟化启动,再到虚拟机启动,全流程都有可信校验,确保云上计算环境处于可信状态。实现高安全性通常会有技术和性能的双重成本。“我们与英特尔深度合作,充分发挥CIPU系统的能力,最终将性能损耗控制在了5%以内。”姬少晨说,“不同模型会有所差别,但阿里云 ECS g8i实例可以做到性能几乎0损耗。这表明云上算力服务在保证高安全的基础上依然能够支撑高性能。”通过和英特尔紧密且深度的合作,SGX2.0和TDX降低了机密计算的门槛,阿里云又通过虚拟化技术进一步降低安全门槛。无论是创意广告的生成,离线视频摘要生成,还是想要低成本验证模型推理结果,阿里云ECS g8i实例都是兼具性能、安全性的选择。阿里云ECS g8i实例能够有如此令人惊喜的AI推理优势,还是得益于阿里云和英特尔的强强联合,这种1+1>2的合作成果也正在加速生成式AI双峰形态的到来。双峰形态也就是模型进入两端,大模型提升准确度和复杂度,覆盖问题范围占据一端,需要异构计算的支持,另一端是大量中小参数的大语言模型让AI无处不在,需要包括CPU在内的各种算力支持。提供灵活且安全算力的阿里云的弹性计算,无疑是加速生成式AI时代的加速器。