Bendi新闻
>
AIGC大模型:对网络的5大关键需求

AIGC大模型:对网络的5大关键需求

8月前

从Transformer 问世至 2023年 ChatGPT 爆火,人们逐渐意识到随着模型参数规模增加,模型的效果越来越好,且两者之间符合Scalinglaw规律,且当模型的参数规模超过数百亿后,AI大模型的语言理解能力、逻辑推理能力以及问题分析能力迅速提升。同时,随着模型参数规模与性能提升后,AI大模型训练对于网络的需求相比于传统模型也随之产生变化。

相关阅读:


为满足大规模训练集群高效的分布式计算,AI大模型训练流程中通常会包含数据并行、流水线并行及张量并行等多种并行计算模式,不同并行模式下均需要多个计算设备间进行集合通信操作。另外,训练过程中通常采用同步模式,需多机多卡间完成集合通信操作后才可进行训练的下一轮迭代或计算。因此,在AI大模型的大规模训练集群中,如何设计高效的集群组网方案,满足低时延、高吞吐的机间通信,从而降低多机多卡间数据同步的通信耗时,提升GPU有效计算时间占比(GPU计算时间/整体训练时间),对于AI分布式训练集群的效率提升至关重要。以下将从规模、带宽、时延、稳定性及网络部署角度分析AI大模型对于网络的需求。
   1、超大规模组网需求
AI 应用计算量呈几何级数增长,算法模型向巨量化发展,人工智能模型参数在过去十年增长了十万倍,当前AI超大模型的参数目前已经达到了千亿~万亿的级别。训练这样的模型,毫无疑问需要超高算力。此外,超大模型对于显存的需求页很高。以1T参数模型为例,使用16bit精度存储,首先需要消耗2TB的存储空间。除此之外,在训练过程中,前向计算产生的激活值、反向计算产生的梯度、参数更新需要的优化器状态等中间变量均需要存储,且中间变量在单次迭代中也会不断增加。一个使用Adam优化器的训练过程,峰值会产生7倍于模型参数量的中间变量。如此高的显存消耗,意味着需要几十上百个GPU才能完整存储一个模型的训练过程。
可是,仅仅有了大量GPU,仍然无法训练出有效的大模型。合适的并行方式才是提升训练效率的关键。目前超大模型主要有三种并行方式:数据并行、流水线并行、张量并行。在千亿~万亿级别的大模型训练时,以上三种并行都会存在。训练超大模型需要数千GPU组成的集群。表面上看,这和云数据中心当前已经达到数万服务器的互联规模相比,还处于下风。但实际上,几千节点的GPU互联,比数万服务器的互联更具有挑战,因为网络能力和计算能力需要高度匹配。云数据中心使用CPU计算,网络需求一般在10Gbps~100Gbps,并且使用传统TCP传输层协议。但AI超大模型训练使用GPU训练,算力比CPU高好几个数量级,互联网络需求在100Gbps~400Gbps,此外使用了RDMA协议来减少传输时延,提升网络吞吐。
具体来说,数千GPU的高性能组网,在网络规模上有以下问题需要考虑
  • 大规模RDMA网络遇到的问题,例如链路头阻、PFC死锁风暴
  • 网络性能优化,包括更高效的拥塞控制、负载均衡技术
  • 网卡连接性能问题,单主机受到硬件性能限制,如何构建数千RDMA的QP连接
  • 网络拓扑选择,是传统Fat Tree结构更好,还是可以参考高性能计算的Torus,Dragonfly 等组网

   2、超高带宽需求
在AI大模型训练场景下,机内与机外的集合通信操作将产生大量的通信数据量。从机内GPU通信角度看,以千亿参数规模的AI模型为例,模型并行产生的AllReduce集合通信数据量将达到百GB级别,因此机内GPU间的通信带宽及方式对于流完成时间十分重要。服务器内GPU应支持高速互联协议,且其进一步避免了GPU通信过程中依靠CPU内存缓存数据的多次拷贝操作。从机间GPU通信角度看,流水线并行、数据并行及张量并行模式需要不同的通信操作,部分集合通信数据将达到百GB级别,且复杂的集合通信模式将在同一时刻产生多对一与一对多的通信。因此机间GPU的高速互联对于网络的单端口带宽、节点间的可用链路数量及网络总带宽提出了高要求。另外,GPU与网卡间通常通过PCIe总线互联,PCIe总线的通信带宽决定网卡单端口带宽能否完全发挥。以PCIe3.0总线(16lane对应单向16GB/秒带宽)为例,当机间通信配备200Gbps的单端口带宽时,机间的网络性能将无法完全被使用。
   3、超低时延及抖动需求
在数据通信传输过程中产生的网络时延由静态时延和动态时延两个部分构成。静态时延包含数据串行时延、设备转发时延和光电传输时延,静态时延由转发芯片的能力和传输的距离决定,当网络拓扑与通信数据量确定时,此部分时延通常为固定值,而真正对网络性能影响比较大的是动态时延。动态时延包含了交换机内部排队时延和丢包重传时延,通常由网络拥塞和丢包引起。
以1750亿参数规模的GPT-3模型训练为例,从理论估算模型分析,当动态时延从10us提升至1000us时,GPU有效计算时间占比将降低接近10%,当网络丢包率为千分之一时,GPU 有效计算时间占比将下降13%,当网络丢包率达到1%时,GPU有效计算时间占比将低于5%。如何降低计算通信时延、提升网络吞吐是AI大模型智算中心能够充分释放算力的核心问题。
除时延外,网络变化因素引入的时延抖动也对训练效率产生影响。训练过程中计算节点的集合通信过程一般可以拆解成多个节点间并行执行P2P通信,例如N个节点间Ring AllReduce 集合通信包含2*(N-1)次的数据通信子流程,每个子流程中所有节点均完成P2P通信(并行执行)才可结束这个子流程。当网络出现波动时,某两个节点间的P2P的流完成时间(FCT)将明显变长。因网络抖动引入的P2P通信时间变化可理解为木桶效率的最弱一环,将会导致其所属的子流程的完成时间也随之变长。因此,网络抖动导致集合通信的效率变低,从而影响到AI大模型的训练效率。
   4、 超高稳定性需求
Transformer 诞生以后,开启了大模型快速演进的序章。过去5年时间,模型从61M,增长到540B,翻了近1万倍!集群算力决定了AI模型训练速度的快慢,单块V100训练GTP-3 需要335年,10000张V100的集群,集群系统完美线性扩展需要12天左右时间。
网络系统的可用性是作为基础来决定整个集群的计算稳定性。一方面,网络故障域大,集群中一个网络节点的故障可能会影响数十个甚至更多的计算节点的连通性,降低系统算力的完整性;另一方面,网络性能波动影响大,网络作为集群共享资源相较于单个计算节点不容易被隔离,性能波动会导致所有计算资源的利用率都受影响。因此在AI大模型训练任务周期中,维持网络的稳定高效是极其重要的目标,对网络运维带来了新的挑战。
在训练任务期间一旦发生故障,可能需要容错替换或者弹性扩缩容的方式来处理故障节点。一旦参与计算的节点位置发生了变化,导致当前的通信模式或许就不是最优的,需要通过作业重新排布和调度,以此来提升整体训练的效率。另外,一些网络故障(例如静默丢包)的发生是不可被预期的,一旦发生不仅会导致集合通信效率降低,同时还会引发通信库超时,造成训练业务长时间卡死,很大程度上影响训练效率。因此需要通过获取细粒度的业务流吞吐、丢包等信息,可避障自愈的耗时控制在秒级别内。
   5、网络自动化部署需求
智能无损网络的构建往往基于RDMA协议及拥塞控制机制,但与之相伴随的是一系列复杂多样化的配置。其中任一个参数配置错误都可能会影响到业务的性能,还有可能会引出些许不符合预期的问题。据统计,超过90%的高性能网络故障是由配置错误导致的问题,出现这一问题的主要原因是网卡配置参数多,其中参数量取决于架构版本、业务类型和网卡类型。由于AI大模型训练中集群规模大,进一步增大配置的复杂度。因此,高效或自动化部署配置能够有效的提升大模型集群系统的可靠性和效率。自动化部署配置需要能够做到多台并行部署配置的能力,自动选择拥塞控制机制相关参数以及根据网卡类型和业务类型选择相关配置。

同样的,在复杂的架构和配置条件下,在业务运行过程中可快速准确地故障定位,能够有效保障整体业务效率。自动化的故障检测一方面可以快速定界问题,精准推送问题至管理人员,另一方面可以减少问题定位成本,快速定位问题根因并给出解决方案。

一个很好的AI平台,融合了多家国内外AIGC平台接口
当前国际主流的AIGC大模型有Open AI的:chatgpt4.0、谷歌的Gemini,但国内小伙伴一般很难使用到,国内的主流大厂也都发布了自己的AI大模型,如:百度的:文心一言、阿里的:通义千问、字节的:豆包、腾讯的:混元大模型等等,其中大部分也是免费可以使用的(百度的文心一言3.5版本免费,4.0版本49/月)。
如果大家想同时在国内使用chatgpt4.0、Gemini、文心一言4.0等国内外顶级的AIGC大模型(不用费劲FQ),可以使用Hulu AI,一顿饭钱(298元),“永久”使用。

转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

来源:架构师技术联盟

相关新闻

阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会Anthropic:大模型的欺骗行为难以消除;AI将影响全球近40%的就业岗位,对发达国家冲击最大丨AIGC日报OpenAI将重新启动之前被放弃的机器人团队;腾讯:现在大模型能力远达不到高频用户需求,渗透率还不足丨AIGC日报王小川评AI大模型“价格战”:在中国市场,API服务对创业公司是走不通的;科大讯飞:讯飞星火Lite版永久免费丨AIGC日报AIGC大模型崛起:新兴职业崭露头角,跨界合作与创新思维成关键北大袁粒:用户不会为只能“闲聊”的大模型买单 | 中国AIGC产业峰会突发:在西雅图看流星雨指南;做农民工更容易拿签证,华州农场主对H2A签证的需求大增;亚马逊在贝尔维尤的大楼将带火东区房市李彦宏:高考后大模型公司热衷于写高考作文价值不大,真正的需求是填写志愿AI大牛杨红霞离职创业,曾为字节和阿里大模型研发主力;阿里披露对月之暗面投资详情:8亿美元购入约36%股权丨AIGC日报2024年AIGC行业研究:多模态大模型与商业应用|36氪研究院Meta 宣布改组旗下 AI 部门,正训练自家下一代大语言模型 Llama 3;国内首个网络安全大模型评测平台发布丨AIGC日报百川智能王小川:大模型价格战是好事;智源发布全球首个低碳万亿语言模型Tele—FLM丨AIGC日报北京获准的大模型占全国近半;OpenAI CEO筹建AI芯片公司;零一万物多模态语言模型上线丨AIGC大事日报腾讯混元大模型升级:部分中文能力已追平GPT-4,支持16s视频生成;索尼音乐禁止人工智能开发商使用其音乐内容丨AIGC日报硅谷VC张璐:硅谷大模型市场已明确分为三类,三大应用领域迭代速度较快 | 中国AIGC产业峰会俄乌战争结果将由中国决定?高盛发布对中国七大行业产能分析,5个行业产能超过全球需求之和……字节跳动豆包大模型支持实时语音通话;阿里发布Qwen2-Math:数学推理全球第一,超越GPT-4o丨AIGC日报昇腾社区回应网传华为发布会大模型生成图片系人工操控;Sam Altman:新款语音模型GPT-4o尚未发货丨AIGC日报OpenAI或将在5月9日发布ChatGPT版搜索引擎;中文大模型最新排名出炉,腾讯混元位居前三丨AIGC日报3年前成功预警恒大,分析师林镇鸿看好楼市复苏:一旦房价稳下来,被压抑的需求会回归AIGC大模型第一股,成「五一档」超强黑马!交易量股价双创新高OpenAI发布新旗舰模型GPT-4o;字节跳动正式发布豆包大模型|AIGC周观察第四十三期学费有政府补助!社区服务工作者CSW专业课程:岗位需求大,就业率高!阿里通义千问2.5大模型发布;阿里达摩院提出“知识链”框架,逐步纠错降低大模型幻觉丨AIGC日报
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。