Bendi新闻
>
“智算”雄起 | 腾讯云:为国产化智算云筑基

“智算”雄起 | 腾讯云:为国产化智算云筑基

8月前







今年全国两会的《政府工作报告》首次提出“人工智能+”行动。打造以人工智能为引擎的新质生产力,已经成为当前最紧迫的任务。

为人工智能落地应用提供支撑的智算中心正在全国范围内快速兴起。智算中心与云计算中心有何区别?智算中心如何建设,又如何运营和运维?智算中心如何助力新质生产力的打造?为解答这些问题,我们邀请了业界知名厂商、专家,在“智算雄起”的大潮下,各抒己见、观点碰撞,希望为推动智算中心的建设和发展提供有益的借鉴和参考。




智算中心要达成的任务或者目标是,完成特定的一个或多个大模型训练或者推理的任务。而完成这个任务所需要的内容包括算法、数据和算力。因此,要求智算中心必须具备对算法进行开发、优化、调度的模型管理能力,算力和数据所对应的高性能计算和高性能存储能力,以及算力和数据交互所需要的高性能网络能力。


从用户的角度来看,智算中心的使用者大体分成三类:算法工程师,一般负责对算法进行设计和调优,不涉及工程层面;AI开发工程师,负责模型训练和推理的实际落地执行,一般工程化实现都是基于各大AI框架(如TF、PyTorch)+容器平台;AI运维工程师,负责AI训练推理所需要的底层计算、存储、网络资源。所以,智算中心的业务定位应该满足这三类使用者的诉求。


腾讯云副总裁沙开波概括说,一个完整的智算中心应该可以提供AI开发人员和运维人员需要的算力和数据所对应的高性能计算、存储和网络能力,同时还要提供上层的模型、数据管理,以及算法调优能力,以满足更上层算法工程师对于最终训练推理的要求。


智算中心有何不同?


智算中心与云数据中心都是由上层应用软件、中层云服务、底层基础资源三部分组成,而不同点在于这三部分有各自不同的含义(如下表所示)。



数据中心

智算中心

上层应用软件

随业务不同,运行多样化的应用软件

主要运行大模型训练软件,负责对于模型的管理、数据的管理、算法的调优等

中层云服务

丰富的云服务,大数据、安全、中间件、容器等

最主要是大模型训练相关的容器平台和任务调度平台,负责训练、推理任务相关的分配、调度和执行

底层基础资源服务

CPU为主的算力资源服务,包括计算、存储、网络

GPU/CPU和RDMA网络为基础的算力资源服务,包括高性能计算、存储、网络


智算中心与传统的云数据中心最主要的差异在于,底层资源增加了GPU等异构算力和RDMA网络资源,以及在上层云服务和应用软件方面,更聚焦在和大模型相关的服务和软件上。云数据中心以传统业务应用为主,对云基础设施进行规划设计和建设,其算力特点是以CPU 算力为主、GPU算力为辅,网络以以太网为主。智算中心是以AI方向业务需求为主,进行基础设施规划建设,算力以GPU/NPU为主,CPU 为辅,为满足AI方向业务特点,需要配套的高性能网络,如RDMAIB网络。两种方向上的差异也会体现在IDC规划建设的不同,以及智算中心对算力密度和能耗规划要求更高。


构建属于用户自己的智算云


沙开波介绍说,腾讯自身有大模型产品——“混元”,其背后也有对应的自建智算资源。与此同时,腾讯专有云TCE和TCS两个产品也可以帮助企业客户构建智算中心。


TCE是和腾讯公有云同源同构的全栈云平台,坚持一云多芯,坚持软硬开放,提供从基础IaaS到上层PaaS的全栈云产品,目前已经拥有众多行业标杆,特别是在金融领域处于领导者地位。


TCS是基于云原生技术的PaaS平台,可以灵活地组合式输出各种腾讯自研PaaS产品,且支持GPU/NPU容器虚拟化、RDMA高性能网络、容器批量计算、多集群管理和一云多芯,为企业提供智算方案的云原生技术底座支持。


在智算中心场景中,TCE可以为客户提供异构CPU/GPU的高性能计算、RDMA高性能网络,满足大模型训练时需要的直通算力和多卡数据交互需求,以及提供以并行文件系统为代表的高性能存储,满足大模型训练时checkpoint等数据的快速读写。总之,基于TCE和TCS,企业客户就可以构建完整的智算中心。


面对智算中心,腾讯专有云提供了一整套端到端的解决方案,包含TCE的HCC(腾讯云高性能计算集群)和CFS Turbo(腾讯云并行文件存储系统),提供了高性能计算能力和RDMA高性能网络能力,也提供了并行文件系统,实现数据高速读写;另外,还包含TCS产品,提供支持大模型训练推理调度能力的云原生容器平台。


“以TCE和TCS产品为基础的腾讯专有云智算中心,其最大特色就是全面的国产化和一云多芯”沙开波如是说。


整个TCE和TCS软件全部自研,符合国内服务器虚拟化、虚拟化云平台、容器云平台等一系列自主可控云计算平台的标准,同时还以业内领先水平支持国产化密码标准。尤其是其中的并行文件系统,因为技术门槛较高,业内主要的做法是使用或封装国外产品,而腾讯则是完全自研,可以实现从客户端调用到数据存储的端到端全链路国产化。


TCE和TCS可以实现从硬件适配、资源池化到异构调度的完整全栈一云多芯,并向下纳管异构芯片资源、向上屏蔽硬件差异,从而保障业务高效稳定运行,并可帮助企业降低硬件供应链风险,实现平滑过渡式国产化替换。


TCE和TCS还全面支持国产GPU,实现了从CPU到GPU的全国产异构算力。


综上,企业完全可以基于腾讯专有云TCE和TCS搭建一朵完全属于自己的国产化智算云。


沙开波表示,腾讯云已经在IDC、汽车、金融等多个行业成功落地了智算中心项目。在IDC行业,腾讯云提供TCE智算云平台,帮助客户从传统数据中心托管业务实现转型升级,可以高效便捷地提供智能算力服务。在汽车行业,腾讯云提供了TCE智算云平台及其上的自动驾驶工具链,帮助客户极速构建一站式的自动驾驶开发、测试和上线运行环境,极大减少了自动驾驶业务的研发和运营成本。在金融行业,腾讯云提供TCE智算云平台和TCS云原生AI套件,帮助客户构建大规模国产化GPU算力资源池和编排调度能力,实现关键基础设施的智能化业务自主可控。


打破瓶颈 步步为营


随着以Sora为代表的新的多模态生成式AI问世,可以预见,各大企业对于GPU卡的需求还会持续大幅度增长,再加上不可预知的外界因素影响,围绕GPU算力的硬件供应链是后续智算平台进一步发展的最大挑战。沙开波认为,解决思路就是完整实现国产化,充分发挥一云多芯,让智算云平台通过适配、管理、调度多种国产化CPU和GPU芯片,最大程度降低供应链风险,同时还能满足不同业务对于不同算力的需求。腾讯专有云TCE和TCS会持续帮助广大企业建设真正属于自己的智算云。



往/期/回/顾

从科技赋能到价值引领,东莞证券可进化的信创云建设启示录“智算”雄起 | 智算操作系统要“顶天立地”

“智算”雄起 | 青云科技:智算中心建设、运营两不误


“智算”雄起 | 天翼云:大模型背后的算力推手


“智算”雄起 | 智算操作系统要“顶天立地”




微信扫码关注该文公众号作者

来源:云数智观察

相关新闻

越过智算云发展拐点!解读天翼云智算服务,用“组合拳”突围大模型训推难题开放赋能,筑基云智未来|锐捷网络亮相2024中国移动算力网络大会创业黑马携手华为云发布“中小企业服务大模型解决方案” 共促企业数智化升级至少降本25%!智云谷全新HUD技术“拿掉”楔形膜,助推普及化创业内幕|PPIO派欧云姚欣:闲置算力也能被共享?这家公司想做云计算版的“滴滴”「智云探厂」获奖公示,一起体验前所未有的摄影新境界!「2024智云新品体验会」石家庄站回顾,焕新光影未来!「上海首家智云专卖店」焕新启幕!「探厂回顾」首期智云溯源之旅,圆满结束!AI「搅动」云计算,阿里云推动算力底层变革「探厂活动」游桂林,赏智云,领奖金,薅新品!「摄影超次元乱斗3.0」智云向你发出组队邀请!华为发布智驾新品牌“乾崑”:首批合作品牌披露,10款车型将搭载筑算网基石 创数智未来|锐捷网络闪耀2024 MWC上海用户说 | 从“跑断腿”到“云上飞”:锐捷云桌面助力盐城市第三人民医院信息化运维“轻装上阵”AI时代来临:智爱「智慧律师」引领法律服务数字化新浪潮腾讯公关总监回应“马化腾衰老照”:P得太假了智云活动 | 全网征集“三步拍美照”,简单创作赢手机,镜头和新品灯光!聚生态 智算兴,超聚变的行业生态之“变”浦发银行最新成绩单出炉:“五大赛道”齐发力,数智化战略助力良好开局专注交通基础设施运维数智化升级,「圭目机器人」完成A+轮融资|早起看早期专注交通基础设施运维数智化升级,「圭目机器人」完成A+轮融资|36氪首发前瞻产业研究院&华为云:2024年中国AI大模型场景探索及产业应用调研报告-大模型“引爆”行业新一轮变革「云途半导体」再获数亿元人民币融资,加速车规级MCU芯片国产化进程|36氪独家
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。