移动云与浙大共同打造科研“超级计算平台”
从过去到现在,人们一直在追求更⾼的算⼒。
近些年,随着现代数据计算量和场景复杂度的不断提升,普通计算⼯具提供的算力远不足以支撑⽣物制药、⽓象预报、军事研究、基础科学研究等尖端领域的应用需求。
作为科技领域顶尖的计算力代表,⾼性能计算(简称 HPC)系统运行速度通常比最快的商用台式机、笔记本电脑或服务器系统快一百万倍以上,可以通过并行工作的强大处理器集群处理海量大数据,以极高的速度解决一些程序规模庞大、运算时间长以及数据量大的计算任务,逐渐成为企业、研究机构科技水平的重要指标。
作为科学研究前沿阵地和人才培养重地的高校,科研、教学、管理对HPC资源的需求也日益攀升。风口之下,如何评估⾼校算⼒服务现状?如何高质量推动算⼒平台建设?如何让⾼性能算⼒普惠师⽣⽤⼾?成为当今教育界的“时代之问”。
要找到问题的答案,不妨关注一下国内高校算⼒建设的标杆性案例。
浙江大学:打造算力革命“超强大脑”
2023年10月,教育部等六部门联合发布《算力基础设施高质量发展行动计划》,鼓励各类高等院校、职业院校积极运用算力平台为学校实习实验实训环境、平台和基地建设、转型发展及重大项目或课题的开发与创新提供支撑。
目前,清华大学、北京大学、上海交通大学、南京大学等高校都已建设自有的算力中心。从“基于经验”到“数据驱动”教学科研的数字化时代,HPC中心俨然成为众多一流大学的标配。
作为海内外均享有较高声誉的综合型、研究型高等学府,浙江大学(下称“浙大”)这所百年名校不仅在多个学科领域遥遥领先,更着眼于科技赋能,加快算力中心建设,在计算领域的研究和打造智慧校园的路上走在全国前列。
在今天的浙大校园里,智能教学环境、信息化校园应用管理、用科学计算进行虚拟仿真实验、训练AI模型都已司空见惯,这些应用场景背后都少不了高性能算力的支撑。
此前,浙大HPC集群为数十个中小型集群,各学院自行采购搭建小型计算平台,存在部分服务器裸硬件没有集群化,算力资源分散管理、忙闲不均、共享不畅等问题。由于缺乏校级平台统一管理全校计算资源,浙大在进行项目研究时,很难一次性调用大批量资源执行计算,可能就会导致科研成果产出效率“慢别人一拍”,长此以往将不利于学校提升科研水平。
此外,许多科研项⽬在进⾏⾼度复杂的模拟和计算时,既需要超算算⼒,⼜需要智算算⼒。长远来看,推动“超算+智算”融合发展势在必行。
为了进一步满足科研工作和智慧校园的发展需求,浙大计划建设一套高效、安全、可靠的智算超算专属云平台,进一步推进5G、云计算、大数据、物联网等新一代信息技术在教育领域的实际应用。
近期,浙大与中国移动在北京签署战略合作协议,在共建校园网络、共创5G技术、共筑开放实验室等合作基础上,双方还联合打造了全国首个校企合营模式算力中心——中国移动-浙江大学启真算力中心。
中国移动与浙江大学战略合作签约仪式
基于移动云技术底座,打造智算超算统一调度平台,高效整合高性能CPU、GPU以及国产AI芯片等硬件资源,为浙大提供面向科学研究的AI+HPC算力服务。
同时,通过九天人工智能平台开放,基于1600Gbps带宽的高速网络,浙大管理平台软硬件系统实现对通用、超算、智算等算力的统一管理、调度,以及数据模型训练到模型推理、验证的无缝衔接,满足各学科领域对于大规模数据处理和科学计算的需求。
据统计,项目整体建成后,浙大人工智能算力将达711Pflops(每秒71.1亿亿次浮点运算能力水平),达到全国高校头部水平。后续,浙大还将接入中国移动“百川”算力并网平台,实现全校算力资源的统一调度和算力服务普及、普惠,让算力服务充分支撑教学和科研。
“智算一朵云”夯实科研创新数字基座
目前,高校的HPC平台,包括软硬件部分,基本是和国内厂商合作共建完成的,有经验的云服务商,能帮助学校有效降低建设成本、减少资源浪费、提高科研效能等。
移动云作为HPC建设的早期参与者,面对国内高校在人工智能教学、科研、实训等环境搭建过程中普遍面临的硬件使用成本高、模型部署困难、训练数据难获取、Deadline算力资源不足等痛点,已迭代出了系统完善、安全可靠的高校超算智算云解决方案——通过统一云管平台、HPC集群管理调度系统、AI智算平台,全方位支撑高校管理平台软硬件系统,成为科研创新的底座。
在服务保障上,移动云为高校提供属地化的服务模式,除了前期的规划建设和运营,算力中心建设后,还会提供“远程+驻场运维”的专人专职维护来保障业务系统的持续稳定,让高校客户能够专注于业务、专注科研。目前,这一解决方案已在诸多高校中落地应用,为学校的高质量发展注入新动能。
高效易用的调度管理平台
可以肯定的是,中国高校“卷”高性能计算平台的热潮还将继续,随着教育⾏业数字化发展进程不断演进,高性能算力基础设施的建设、算力供给能力的提升、算力普惠力度的加大,已成必然之势。
基于多年的经验沉淀,移动云已构成全栈自主可控、行业领先的智算中心架构,形成了“N+X”智算资源布局体系,实现多种能力输出,满足生命科学、材料设计、气象预测、计算物理等各类科研业务场景在云上的数据开发、存储以及模型训练和推理需求。
除此之外,移动云正逐步加强智算基础设施建设,打造全栈智算产品体系。通过提供高性能智算集群、裸金属、GPU云主机等 IaaS层基础设施,移动云打造了具有特色的PaaS服务和模型即服务(MaaS)能力,同时依托九天智算平台能力释放澎湃智算算力,深入融合行业解决方法,探索大模型落地,实现已有服务规模化落地。
面向未来,算力平台作为“数字新基建”,在高校将发挥越来越大的作用,因此高校算力建设的持续投入很关键。除了学科科研之外,高校还需要更多地探索、发展计算技术,推动算力建设和数字能力的持续发展,以便更好地服务于自身的数字化转型。
微信扫码关注该文公众号作者