AWS Graviton 4,水平如何?
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank)编译自phoronix,谢谢。
本周,AWS 宣布 Graviton4 已随新的 R8G 实例进入 GA 阶段,此前亚马逊于去年首次宣布其 Graviton4 ARM64 服务器处理器基于 Arm Neoverse-V2 内核构建。我自己急切地启动了一些基准测试,与 Graviton3 相比,我对代际提升感到惊讶。在相同的 vCPU 数量下,新的 Graviton4 内核大致与 Intel Sapphire Rapids 性能相当,同时能够与 AMD EPYC“Genoa”相媲美,并始终表现出极佳的代际提升。
Graviton4 本周全面上市,最初为新的 R8g 实例提供支持。基于 Graviton4 的 R8g 实例据称比基于 Graviton3 的 R7g 上一代实例性能高出 30%。Graviton3 CPU 配备 64 个 Neoverse-V1 内核,而 Graviton4 配备 96 个基于 Armv9.0 ISA 的 Neoverse-V2 内核。Graviton4 的 Neoverse-V2 内核每核有 2MB 的 L2 缓存、12 通道 DDR5-5600 内存,以及与之前的 Graviton ARM64 处理器相比的其他改进。
AWS 宣传 Graviton4 可为 Web 应用程序提供高达 30% 的更快性能、为数据库提供高达 40% 的更快性能以及为 Java 软件提供 40% 以上的更快性能。
出于对 Graviton4 性能的好奇,我启动了一些新的 AWS 实例,将 R8g 实例与其他相同大小的实例进行比较。所有测试都使用“16xlarge”大小,每次查看 64 个 vCPU 和每个实例 512GB 内存。今天的文章测试的实例包括:
Graviton2 - r6g.16xlarge
Graviton3 - r7g.16xlarge
Graviton4 - r8g.16xlarge
AMD EPYC 9R14 - r7a.16xlarge
Intel Xeon 8488C - r7i.16xlarge
所有实例均使用带有 Linux 6.8 内核和原装 GCC 13.2 编译器的 Ubuntu 24.04 进行测试。
与 Ampere Computing 的云 ARM64 服务器处理器进行比较本来很有趣,但不幸的是这实际上不可行。与 Google 的 T2A Tau 实例一样,云中的 Ampere Altra (Max) 最多只能使用 48 个 vCPU。即便如此,Ampere Altra 也在使用 DDR4 内存和 Neoverse-N1 内核…… AmpereOne当然是更直接的竞争对手,尽管仍然找不到。我们仍然没有接触到任何 AmpereOne 硬件,也没有从 Ampere Computing 那里得到任何迹象,表明他们最终可能会发送评测样品。
Oracle Cloud 现在应该已经使用他们的 AmpereOne 云实例进行了 GA,但截至撰写本文时,这些实例仍然不可用,Ampere Computing 无法提供任何其他访问 Ampere One 进行性能测试的途径。因此,对于可能是 Graviton4 最接近的 ARM64 服务器处理器竞争对手来说,它仍然是 MIA。
让我们看看 Graviton4 的外观——以及它在 AWS 云中的每美元性能——与之前的 Graviton 实例以及 AMD EPYC 和 Intel Xeon 竞争对手相比。每美元性能值基于按需小时费率。
HPC基准测试
首先是 miniFE 有限元小型 HPC 基准测试。从使用 r7g.16xlarge 的 Graviton3 到使用 r8g.16xlarge 的 Graviton4,代际增益非常巨大。从 Neoverse-V1 到 Neoverse-V2 以及额外的内存带宽为该基准测试带来了巨大回报。
在这种情况下,它甚至在 AWS 上领先于竞争对手AMD EPYC 9R14 Genoa ……当然,AMD 很快就会推出他们的新第五代 EPYC“Turin”处理器,应该可以更好地与 Graviton4 竞争。同样,当前的 Intel Xeon R7i 实例基于 Sapphire Rapids,而 Emerald Rapids 在市场上有售,但目前不在 AWS 上,而更有趣的是即将推出的 Xeon 6 Granite Rapids 处理器。无论如何,Graviton4 的巨大飞跃一开始就非常令人惊讶,这是 Graviton 的又一次巨大代际增益。
另一项 HPC 基准测试显示,Graviton4 实现了巨大的代际提升,甚至现在在 64 个 vCPU 上领先于第四代 AMD EPYC,这是 Incompact3D/
Graviton4 不仅在原始性能上胜过 EPYC 实例,而且在 AWS 上的每美元性能价值也更高。
用于计算流体动力学的 OpenFOAM 也通过 Graviton4 获得了巨大的收益。在同样的 64 个 vCPU 数量下,Graviton3 的性能略低于 Intel Xeon 8488C 实例,而现在有了 Graviton4,它超越了 Intel Xeon,并提供与 EPYC 9R14 实例类似的性能。
在经过测试的 AWS 云实例中,R8g 实例的性价比目前是最高的。
即使网格尺寸较大,Graviton4 实例仍可与 AMD EPYC 实例竞争。从 Graviton2 到 Graviton3 再到现在的 Graviton4 的进步非常令人印象深刻,值得一看的是 AWS 和 Arm 还能保持代际改进多久。
Graviton4 与 GROMACS 一起取得了可观的进步,但 AMD EPYC 和 Intel Xeon 的速度最快。
加密基准,SrSRAN等
通过 Xmrig 进行的一些加密基准测试,我们发现 Graviton3 到 Graviton4 的性能提升最为显著。Graviton3 的性能略高于 Intel Xeon R7i 实例的一半,而现在 Graviton4 的速度要快得多,仅次于 AMD 第 4 代 EPYC 实例。从 Graviton3 到 Graviton4,GhostRider 测试的性能提高了 2.82 倍。
使用 srsRAN 软件定义的无线电软件作为 5G RAN 解决方案,从 R7g 到 R8g 取得了可观的进步,但仍落后于 Intel Xeon 和 AMD EPYC 实例。这可能是由于 srsRAN 对 x86_64 的上游支持/优化比对 AArch64 的上游支持/优化更多。
在 John The Ripper 加密基准测试中,Graviton4 落后于 Intel Xeon 和 AMD EPYC 实例,但与 Graviton3 相比仍取得了健康的代际进步。
代码编译
下面看一下代码编译方面的表现。
通过 7-Zip 压缩基准测试,Graviton4 处理器现在能够超越 EPYC 9R14 R7a 实例。
AWS ARM64 处理器的性能得到了非常好的改进,并且比其他测试实例的价值更高。
对于 Stockfish 国际象棋基准测试,在这场 64 vCPU 对决中,Graviton4 实例仅略微落后于 AMD EPYC 实例。
Graviton4 上的代码编译比 Graviton3 及更早版本快得多......Graviton4 实例可以比其他测试实例更快地编译 Gem5 模拟器。
对于那些希望在 AWS 云中使用 CI/CD 类型构建服务器的人来说,R8g 现在在代码编译价值方面比其他实例具有巨大优势。
对于编译 Godot 游戏引擎,AMD EPYC 实例确实在更快的构建时间方面领先,同时有效地绑定了价值。
AWS 通过 Graviton4 取得的代际进步给我留下了深刻的印象。
光线追踪,数字信号处理等
在进行这次测试时,我没想到 Graviton4 现在与当前的 AMD EPYC 和 Intel Xeon 服务器处理器如此具有竞争力。但是我们距离 EPYC Turin 和 Intel Granite Rapids 的发布已经非常近了,因此在未来几个月重新审视 Graviton4 基准测试将会很有趣。
Graviton4 通过 OpenSSL 基准测试获得了良好的代际收益。
数据库工作负载
使用 ClickHouse 数据库服务器,Graviton3 到 Graviton4 的改进非常显著。Graviton4 现在的表现优于 Intel Xeon 实例,几乎与 AMD EPYC 性能相当。
Graviton4 在该数据库工作负载下实现了最佳的性价比。
与 Graviton3 相比,PostgreSQL 与 Graviton4 的性能有了巨大的提升,现在可以在 64 个 vCPU 上与 Intel Xeon 和 AMD EPYC 协同运行。
在数据库工作负载方面,Graviton4 的收益巨大,达到(在某些情况下甚至超出)AWS 设定的预期。
Blender和结论
对于基于 CPU 的 Blender 3D 建模,Graviton4 的渲染速度比 Graviton3 快得多,但对于 Blender 4.0 来说,至少 Intel Xeon 的性能更佳,而 AMD EPYC 的 64 vCPU 性能最佳。
在本次初始测试中,我在所有实例中完整运行了 48 个基准测试。对所有原始性能基准测试结果取几何平均值:
测试结果显示,从 Graviton3 到 Graviton4,均值提升了 30%……与亚马逊为 Graviton4 宣传的完全一致。看到我的数字与他们对 Graviton4 的营销宣传相符,真是太棒了。这 30% 的代际改进使 Graviton4 整体上比 Intel Xeon R7i 实例快了约 5%。AMD EPYC 实例仍然是整体上最快的,整体性能提高了约 25%,但当深入研究特定的基准/工作负载时,结果可能会有所不同。
在 Graviton2 和 Graviton3 取得所有进展之后,Graviton4 超出了我的预期,亚马逊继续实现了代际增长。提醒一下,所有这些实例都是 64 个 vCPU……现在我们处于 Neoverse-V2 内核与 Graviton4 的阶段,它们实际上与 Intel Sapphire Rapids 内核相匹配,并且根据工作负载,它们也与 AMD 第 4 代 EPYC 相匹配或优于 AMD。
当然,Graviton4 本周刚刚正式发布,并将在未来几个月与 AMD EPYC Turin 和 Intel Xeon 6 Granite Rapids 展开竞争。这将是一场有趣的战斗。英特尔和 AMD 可能会在至少原始性能方面占据领先地位,而每美元的性能将很有趣。同样有趣的是,看看 AWS 能否在 Graviton5 推出时继续取得如此强劲的代际增长。由于 AmpereOne 实际上已消失,这使得 AWS 的 Graviton4 轻松成为 ARM64 服务器处理器性能的领先者。
参考链接
https://www.phoronix.com/review/aws-graviton4-benchmarks
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3831内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者