“智算”雄起 | 腾讯云:为国产化智算云筑基
智算中心要达成的任务或者目标是,完成特定的一个或多个大模型训练或者推理的任务。而完成这个任务所需要的内容包括算法、数据和算力。因此,要求智算中心必须具备对算法进行开发、优化、调度的模型管理能力,算力和数据所对应的高性能计算和高性能存储能力,以及算力和数据交互所需要的高性能网络能力。
从用户的角度来看,智算中心的使用者大体分成三类:算法工程师,一般负责对算法进行设计和调优,不涉及工程层面;AI开发工程师,负责模型训练和推理的实际落地执行,一般工程化实现都是基于各大AI框架(如TF、PyTorch)+容器平台;AI运维工程师,负责AI训练推理所需要的底层计算、存储、网络资源。所以,智算中心的业务定位应该满足这三类使用者的诉求。
腾讯云副总裁沙开波概括说,一个完整的智算中心应该可以提供AI开发人员和运维人员需要的算力和数据所对应的高性能计算、存储和网络能力,同时还要提供上层的模型、数据管理,以及算法调优能力,以满足更上层算法工程师对于最终训练推理的要求。
智算中心有何不同?
智算中心与云数据中心都是由上层应用软件、中层云服务、底层基础资源三部分组成,而不同点在于这三部分有各自不同的含义(如下表所示)。
云数据中心 | 智算中心 | |
上层应用软件 | 随业务不同,运行多样化的应用软件 | 主要运行大模型训练软件,负责对于模型的管理、数据的管理、算法的调优等 |
中层云服务 | 丰富的云服务,大数据、安全、中间件、容器等 | 最主要是大模型训练相关的容器平台和任务调度平台,负责训练、推理任务相关的分配、调度和执行 |
底层基础资源服务 | 以CPU为主的算力资源服务,包括计算、存储、网络 | 以GPU/CPU和RDMA网络为基础的算力资源服务,包括高性能计算、存储、网络 |
智算中心与传统的云数据中心最主要的差异在于,底层资源增加了GPU等异构算力和RDMA网络资源,以及在上层云服务和应用软件方面,更聚焦在和大模型相关的服务和软件上。云数据中心以传统业务应用为主,对云基础设施进行规划设计和建设,其算力特点是以CPU 算力为主、GPU算力为辅,网络以以太网为主。智算中心是以AI方向业务需求为主,进行基础设施规划建设,算力以GPU/NPU为主,CPU 为辅,为满足AI方向业务特点,需要配套的高性能网络,如RDMA或IB网络。两种方向上的差异也会体现在IDC规划建设的不同,以及智算中心对算力密度和能耗规划要求更高。
构建属于用户自己的智算云
沙开波介绍说,腾讯自身有大模型产品——“混元”,其背后也有对应的自建智算资源。与此同时,腾讯专有云TCE和TCS两个产品也可以帮助企业客户构建智算中心。
TCE是和腾讯公有云同源同构的全栈云平台,坚持一云多芯,坚持软硬开放,提供从基础IaaS到上层PaaS的全栈云产品,目前已经拥有众多行业标杆,特别是在金融领域处于领导者地位。
TCS是基于云原生技术的PaaS平台,可以灵活地组合式输出各种腾讯自研PaaS产品,且支持GPU/NPU容器虚拟化、RDMA高性能网络、容器批量计算、多集群管理和一云多芯,为企业提供智算方案的云原生技术底座支持。
在智算中心场景中,TCE可以为客户提供异构CPU/GPU的高性能计算、RDMA高性能网络,满足大模型训练时需要的直通算力和多卡数据交互需求,以及提供以并行文件系统为代表的高性能存储,满足大模型训练时checkpoint等数据的快速读写。总之,基于TCE和TCS,企业客户就可以构建完整的智算中心。
面对智算中心,腾讯专有云提供了一整套端到端的解决方案,包含TCE的HCC(腾讯云高性能计算集群)和CFS Turbo(腾讯云并行文件存储系统),提供了高性能计算能力和RDMA高性能网络能力,也提供了并行文件系统,实现数据高速读写;另外,还包含TCS产品,提供支持大模型训练推理调度能力的云原生容器平台。
“以TCE和TCS产品为基础的腾讯专有云智算中心,其最大特色就是全面的国产化和一云多芯。”沙开波如是说。
整个TCE和TCS软件全部自研,符合国内服务器虚拟化、虚拟化云平台、容器云平台等一系列自主可控云计算平台的标准,同时还以业内领先水平支持国产化密码标准。尤其是其中的并行文件系统,因为技术门槛较高,业内主要的做法是使用或封装国外产品,而腾讯则是完全自研,可以实现从客户端调用到数据存储的端到端全链路国产化。
TCE和TCS可以实现从硬件适配、资源池化到异构调度的完整全栈一云多芯,并向下纳管异构芯片资源、向上屏蔽硬件差异,从而保障业务高效稳定运行,并可帮助企业降低硬件供应链风险,实现平滑过渡式国产化替换。
TCE和TCS还全面支持国产GPU,实现了从CPU到GPU的全国产异构算力。
综上,企业完全可以基于腾讯专有云TCE和TCS搭建一朵完全属于自己的国产化智算云。
沙开波表示,腾讯云已经在IDC、汽车、金融等多个行业成功落地了智算中心项目。在IDC行业,腾讯云提供TCE智算云平台,帮助客户从传统数据中心托管业务实现转型升级,可以高效便捷地提供智能算力服务。在汽车行业,腾讯云提供了TCE智算云平台及其上的自动驾驶工具链,帮助客户极速构建一站式的自动驾驶开发、测试和上线运行环境,极大减少了自动驾驶业务的研发和运营成本。在金融行业,腾讯云提供TCE智算云平台和TCS云原生AI套件,帮助客户构建大规模国产化GPU算力资源池和编排调度能力,实现关键基础设施的智能化业务自主可控。
打破瓶颈 步步为营
随着以Sora为代表的新的多模态生成式AI问世,可以预见,各大企业对于GPU卡的需求还会持续大幅度增长,再加上不可预知的外界因素影响,围绕GPU算力的硬件供应链是后续智算平台进一步发展的最大挑战。沙开波认为,解决思路就是完整实现国产化,充分发挥一云多芯,让智算云平台通过适配、管理、调度多种国产化CPU和GPU芯片,最大程度降低供应链风险,同时还能满足不同业务对于不同算力的需求。腾讯专有云TCE和TCS会持续帮助广大企业建设真正属于自己的智算云。
微信扫码关注该文公众号作者