IoD引领云计算新时代,DPU技术白皮书深入解析(附下载)
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
2024年7月,中科驭数联合业界权威机构发布了最新的DPU技术白皮书。白皮书提出并阐述了“IaaS on DPU (IoD)”这一全新概念,即通过将云计算基础设施服务(IaaS)层组件卸载到DPU上,构建高性能算力底座。
白皮书中指出,当下,DPU技术不再是AWS、阿里云等巨头的“专享”。随着Red Hat、VMware等行业领袖纷纷推出基于DPU的解决方案,DPU的应用已成为基础设施与云计算领域的一大趋势。这些企业通过将DPU集成到其产品中,为不同规模的企业提供了更灵活、高效的计算平台。某种程度上,IoD 技术已成为下一代高性能算力底座的核心技术与最佳实践。
就在6月19日,中科驭数重磅发布了第三代DPU芯片K2-Pro。作为国内首家实现全功能DPU芯片量产的企业,中科驭数在DPU研发以及DPU芯片的商用和部署方面拥有深厚的经验和权威地位。此白皮书对IoD技术的架构、优势以及与传统云计算体系的融合方案进行了全面深入的解析,论证了基于 DPU 构建云计算基础设施服务(IaaS)的性能优势与建设路径,为行业提供了宝贵的技术参考。【文末附白皮书下载链接】
AI产业催生高性能云计算需求
2024年正处于AGI元年。伴随着大型模型和生成式AI的迅速发展,模型的参数规模和数据集大小不断增加。从2017年到2023年的六年间,AI大型模型的参数数量从Transformer的6500万增长到GPT-4的1.8万亿,模型规模增长超过了2万倍。
行业对智能计算能力的需求也随之急剧增长。据《计算能力与人工智能》报告指出,早期AI模型每21.3个月需求翻倍一次计算能力。自2010年深度学习时代以来(小型模型时代),这一需求间隔缩短至每5.7个月翻一倍。到了2023年,大型模型的计算需求每1-2个月翻倍一次。摩尔定律的增速显著落后于社会对Al算力的指数级需求增长速度,即“Al 超级需求曲线”遥遥领先传统架构的 Al 算力供给,带来了 Al 芯片产能瓶颈涨价等短期市场现象。
如此庞大的智算算力需求对底层智算基础设施性能、稳定性、成本及安全性方面带来巨大技术和成本挑战。特别是智算云基础设施在算力、网络、存储、调度等方面的性能对 AI 训练过程有关键影响,是决定 AI 大模型训练质量(效率、稳定性、能耗、成本、信任等)的关键因素。
当前世界上的主要算力基础设施几乎都是通过云计算技术进行管理与调度,大模型行业更是如此,可以说云计算技术已经成为数字世界的“操作系统”。云计算不仅提供了必要的基础设施来支撑 AI 训练,还通过其灵活、高效、可扩展的特性,直接促进了 AI 模型训练质量和效率的提升,推动了 AI 技术的快速发展和广泛应用。
利用DPU构筑算力基础底座
在云计算业务的组成部分中,硬件部分构成了云计算的物理基础,包括服务器、存储设备、网络设备(交换机、路由器等)以及可能的专用硬件(如 GPU 服务器、FPGA 加速器等)。
传统的IaaS平台组件功能全部由CPU算力承载,但随着对云计算性能需求的提升以及极致利用 CPU 算力需求的发展,基于DPU构建 IaaS 平台的理念被提出与论证。
在这一过程中,尤其是以亚马逊云科技(AWS)为代表。根据披露的材料分析,自 2013 年发布 Nitro(DPU) 设备以来,AWS 的云计算服务体系逐渐改造为基于 DPU 构建并运行在 Nitro 设备中,服务器上的 CPU 算力被完全池化并以近乎 100% 的原始算力性能向客户售卖。以此为基础,AWS 构建了一整套高性能、高稳定性的云服务体系,成为全球范围内最大的云服务供应商。国内阿里云也采用类似的体系,其云服务体系与其自研的 DPU 设备紧密配合,帮助阿里云取得了巨大的成功。
所以,IaaS on DPU,简称为 IoD,并非全新的概念,而是已经被业内头部企业充分论证过的技术方向,其商业价值也已经经过市场的考验。
但是如 AWS 等企业的 DPU 与云平台经过高度订制化,难以简单在业内推广开来。随着 NVIDIA、INTEL、AMD 等芯片行业的领军企业以及一些优秀的DPU创业企业如国内的中科驭数等进军DPU赛道后,DPU技术逐渐成熟,不论从功能完备性、系统稳定性还是性价比角度,DPU均已经具备在大规模生产环境落地应用的条件。
如何探索出一条通用云计算系统与标准 DPU产品结合的路径成为业内关注的焦点。而OPI与ODPU 等标准化组织的成立是推动DPU向前发展的关键事件,云厂商与 DPU 供应商纷纷参与其中探讨 DPU API 规范,DPU API 规范可以将云平台与 DPU 设备解耦,将 IoD 技术规范化并全面推向云计算行业。
IoD引领高性能云计算新范式
在当前高性能计算的发展趋势中,网络性能瓶颈显现为制约云计算进步的重要障碍之一。在处理大规模数据和满足实时计算需求的挑战下,解决这一问题愈加艰难。
网络卸载作为一种关键的优化技术,通过将数据包处理、加密解密等网络密集型任务从 CPU 卸载至 DPU 等专用硬件,显著减轻 CPU 负担,提升数据处理速度和网络吞吐量,还通过硬件加速降低了延迟,增强了安全性,从而有效解决了高性能云计算中的网络性能瓶颈,助力其实现更高效、更安全、更具成本效益的网络传输与处理能力。
IoD 技术是云计算卸载技术的主要实现方案。IoD 技术的核心思想是依托于DPU的异构运算能力,将云计算平台的基础设施组件尽可能下沉到 DPU 承载,实现节约 CPU 开销与提升 IaaS 服务性能的目的。同时,基础设施组件下沉到 DPU 之后,可以为服务器侧运行的各种业务提供一致的网络、存储与安全底座,可以更好的将虚拟机、容器与裸金属的业务调度收敛到统一平台。
IoD 网络卸载加速原理
IoD系统模型
白皮书中论述了IoD高性能云计算应用范式,主要包括:
“兼容并包”的公有云:公有云服务是最典型的云计算应用场景,整体看来,部分公有云厂商在选定技术路线后会采用自研 DPU 的方式来获得更高的业务定制性,但芯片研发的巨额资金投入也带来了巨大的不确定性。其余大部分云服务厂商会选择引入硬件供应商的设备来构筑自己的技术体系,此时 DPU 设备的规范性、可定制能力以及服务支持能力将成为至关重要的因素。
“安全强大”的私有云:IoD 技术对于私有云建设的优势非常明显,包括运维隔离、高安全性、性能提升、节能减排。但是目前在运行的私有云改造确面临着诸多问题,涉及适配改造、业务迁移等方面。
“小巧精美”的边缘云:IoD技术对于边缘云的发展来说也具有重大意义,例如实现空间节约、借助 DPU 的高度可编程特性实现定制化、DPU的网络与存储卸载能力对边缘云性能提升大有帮助。当前还处于边缘云业务大规模部署的初期阶段,此时正是边缘云技术体系引入 DPU应用的最佳时机。
“异军突起”的智算云:智算云基础设施层多采用 CPU+DPU+GPU 3U 一体异构算力架构,其中网络层硬件采用 DPU 系列产品,通过将智算的计算、存储、网络、安全、管理等卸载到 DPU 硬件层处理,实现在超高带宽、超低延迟的网络环境中发挥极致效能,同时 DPU 为多租户智算云业务提供安全隔离保护,良好地支撑了 AI 人工智能的 GDR 和 GDS 场景下的推理和训练业务,保证了智算云平台所有业务及数据安全、稳定、可靠的运行。
“电光火石”的低时延云:IoD 技术体系的异构算力管理能力,将低时延传输能力纳入云平台管理与调度,可以更好的支撑低时延云场景的业务需求。
在高性能云计算基础设施建设路径上,总的来说,IoD 技术是从云计算架构视角出发,结合 DPU 的实际能力,尝试将云计算的网络、存储、安全、管控、运维等尽可能多的能力卸载下沉到 DPU,在尽量保证现有技术体系能够平滑演进的同时,又能够为云计算带来巨大的性能提升。
IoD 技术全景图
总结
高性能云底座是云计算发展的重要方向,通过 IoD 技术,可以为云计算体系提供以 DPU 为核心构造、软硬件一体化高性能计算底座,对外提供统一管理、高可扩展性、高性能、低成本的 IaaS 服务。在硬件层面为“3U 一体”和“一云多芯”的异构算力管理提供更好的解决方案。通过对网络、存储、安全、管理等负载的卸载,释放服务器的硬件资源,实现性能加速,提升基础设施运行效率。此外,通过 IoD 的统一底座技术,可以为云计算系统提供容器、虚拟机、裸金属业务的统一调度和运维管理能力,提升运维管理效率。
但它的实现依赖产业各方的共同努力,中科驭数在白皮书中呼吁:主管部门和行业组织应制定政策,鼓励创新;云服务商和硬件厂商应紧密合作,共同开发高性能云计算服务和解决方案;用户企业用户企业应积极响应上云用云政策文件,了解和评估高性能云底座方案在其业务中的潜在应用价值。
参考链接
下载《IaaS on DPU (IoD): 下一代高性能算力底座技术白皮书》,请点击文末“阅读原文”。
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3853内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者