Bendi新闻
>
三行代码无损加速40%,尤洋团队AI训练加速器入选ICLR Oral论文

三行代码无损加速40%,尤洋团队AI训练加速器入选ICLR Oral论文

10月前
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

用剪枝的方式加速AI训练,也能实现无损操作了,只要三行代码就能完成!

今年的深度学习顶会ICLR上,新加坡国立大学尤洋教授团队的一项成果被收录为Oral论文。

利用这项技术,可以在没有损失的前提下,节约最高40%的训练成本。

这项成果叫做InfoBatch,采用的依然是修剪样本的加速方式。

但通过动态调整剪枝的内容,InfoBatch解决了加速带来的训练损失问题。

而且即插即用,不受架构限制,CNN网络和Transformer模型都能优化。

目前,该算法已经受到了多家云计算公司的关注。

那么,InfoBatch能实现怎样的加速效果呢?

无损降低40%训练成本

研究团队在多个数据集上开展的实验。都验证了InfoBatch的有效性。

这些实验涵盖的任务包括图像的分类、分割和生成,以及语言模型的指令微调等。

在图像分类任务上,研究团队使用CIFAR10和CIFAR100数据集训练了ResNet-18。

结果在30%、50%和70%的剪枝率下,InfoBatch的准确率都超越了随机剪枝和其他baseline方法,而且在30%的剪枝率下没有任何精度损失

在剪枝率从30%增加到70%的过程中,InfoBatch的精度损失也显著低于其他方式。

使用ImageNet-1K数据集训练的ResNet-50时,在剪枝率为40%、epoch数量为90的条件下,InfoBatch可以实现UCB相同的训练时间,但拥有更高的准确率,甚至超越了全数据训练。

同时,ImageNet的额外(OverHead)时间成本显著低于其他方式,仅为0.0028小时,也就是10秒钟。

在训练Vit-Base(pre-train阶段300epoch,fine-tune阶段100epoch模型时,InfoBatch依然可以在24.8%的成本节约率下保持与全量训练相当的准确率

跨架构测试比对结果还表明,面对不同的模型架构,InfoBatch表现出了较强的鲁棒性。

除此之外,InfoBatch还能兼容现有的优化器,在与不同优化器共同使用时都体现了良好的无损加速效果。

不仅是这些视觉任务,InfoBatch还可以应用于语言模型的监督微调

在常识(MMLU)、推理(BBH、DROP)等能力没有明显损失,甚至编程能力(HumanEval)还有小幅提升的情况下,InfoBatch可以在DQ的基础上额外减少20%的时间消耗。

另外,根据作者最新更新,InfoBatch在检测任务(YOLOv8)上也取得了无损加速30%的效果,代码将会在github更新。

那么,InfoBatch是如何做到无损加速的呢?

动态调整剪枝内容

究其核心奥义,是无偏差的动态数据修剪。

为了消除传统剪枝方法梯度期望值方向偏差以及总更新量的减少的问题,InfoBatch采用了动态剪枝方式。

InfoBatch的前向传播过程中,维护了每个样本的分值(loss),并以均值为阈值,随机对一定比例的低分样本进行修剪

同时,为了维护梯度更新期望,剩余的低分样本的梯度被相应放大

通过这种方式,InfoBatch训练结果和原始数据训练结果的性能差距相比于之前方法得到了改善。

具体来看,在训练的前向过程中,InfoBatch会记录样本的损失值(loss)来作为样本分数,这样基本没有额外打分的开销。

对于首个epoch,InfoBatch初始化默认保留所有样本;之后的每个epoch开始前,InfoBatch会按照剪枝概率r来随机对分数小于平均值的样本进行剪枝。

概率的具体表达式如下:

对于分数小于均值但留下继续参与训练的样本,InfoBatch采用了重缩放方式,将对应梯度增大到了1/(1-r),这使得整体更新接近于无偏。

此外,InfoBatch还采用了渐进式的修剪过程,在训练后期会使用完整的数据集。

这样做的原因是,虽然理论上的期望更新基本一致,上述的期望值实际包含时刻t的多次取值。

也就是说,如果一个样本在中间的某个轮次被剪枝,后续依旧大概率被训练到;但在剩余更新轮次不足时,这个概率会大幅下降,导致残余的梯度期望偏差。

因此,在最后的几个训练轮次中(通常是12.5%~17.5%左右),InfoBatch会采用完整的原始数据进行训练。

论文地址:
https://arxiv.org/abs/2303.04947
GitHub主页:
https://github.com/NUS-HPC-AI-Lab/InfoBatch

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

来源:量子位

相关新闻

核心代码仅三行!即插即用的视觉语言连接器,一键提升多模态大模型ECCV 2024 | 满分Oral论文!整数训练脉冲推理的高性能低能耗目标检测网络1小时无痛写论文,巧用AI替自己打工,一键生成论文,开题报告和文献综述的秘诀!阿里董事长蔡崇信:训练AI模型就像教育孩子 学习三四年就能赶超人类博士苹果使用 TPU 训练 AI、而非 GPU(附论文)吃饭不健康,癌症风险可能更高!《细胞》发现糖代谢致癌新机制;弱智吧竟成最佳中文AI训练数据?测试远超知乎豆瓣小红书|本周论文推荐今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损延毕警告!毕业论文还没写?上海新华医院博后师兄:用AI,20分钟无痛完稿……ICLR被曝巨大黑幕,评审和作者竟私下勾结?49.9%论文疑有AI审稿两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界ACM顶会SIGGRAPH 2024最佳论文揭晓,英伟达CMU各占40%!三支国内团队获荣誉提名被爆论文涉嫌学术造假,某三甲主治医表示:不用ChatGPT,谁来帮我看文献、写代码……三支国内团队获荣誉提名,英伟达CMU各占40%!ACM顶会SIGGRAPH 2024最佳论文揭晓《自然》子刊:50岁后,中国预期健康工作平均年数为6.87年;高被引AI论文排行榜出炉:中国大厂不敌谷歌微软 | 环球科学要闻可解释性终极追问,什么才是第一性解释?20篇CCF-A+ICLR论文给你答案2024「就业最佳大学」出炉,前三无一所藤校,布朗不如250名开外的学校……商汤披露:50篇论文入选CVPR 2024没时间、没人脉、没实验条件,“三无”小主治在会上被科主任差点骂哭!3个月后……昔日顶流,如今竟是“三无男人”?“三无”产品?甲醛超标?市市场监管局开展“娃娃机”玩偶质量专项监督抽查三行命令,大模型让 Excel 直接回答问题春节的相亲战场,“三无女”完胜八校联动 | “约法三章 情诉三行”三行情诗大赛邀您回顾~被大V推荐的AI论文,被引量会翻倍?两位推特博主5年推文背后影响揭秘
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。