Bendi新闻
>
CVPR 2024 | DeiT全新升级!DeiT-LT:针对长尾数据的改进模型

CVPR 2024 | DeiT全新升级!DeiT-LT:针对长尾数据的改进模型

6月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散/多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

转载自:晓飞的算法工程笔记

DeiT-LTViT在长尾数据集上的应用,通过蒸馏DIST标记引入CNN知识,以及使用分布外图像并重新加权蒸馏损失来增强对尾类的关注。此外,为了减轻过拟合,论文建议用经过SAM训练的CNN教师进行蒸馏,促使所有ViT块中DIST标记学习低秩泛化特征。经过DeiT-LT的训练方案,DIST标记成为尾类的专家,分类器CLS标记成为头类的专家,有效地学习与多数类和少数类相对应的特征

  • 论文地址:https://arxiv.org/abs/2404.02900
  • 论文代码:https://rangwani-harsh.github.io/DeiT-LT/

Introduction


ViT是需要对大型数据集进行预训练,数据高效ViT(DeiT)旨在通过从预训练的CNN中提取信息来减少预训练的要求,提高ViT的数据和计算效率。然而,所有这些改进仅限于平衡的ImageNet数据集。

  关于DeiT可以看这篇文章:【DeiT:训练ImageNet仅用4卡不到3天的平民ViT | ICML 2021】

  在这项工作中,论文的目标是从头开始研究和改进ViT的训练,而不需要对图像大小和分辨率各异的各种额外长尾数据集进行大规模预训练。最近的研究表明ViT在长尾识别任务上的性能有所提高,但这些通常需要在大规模数据集上进行昂贵的预训练。此外,大规模预训练数据集通常会无意中引入的偏差。为了减轻这些缺点,论文为长尾引入了数据高效的ViT(Deit-LT),一个可以在小型和大规模长尾数据集上从头训练ViT的方案。

DeiT-LT基于以下重要设计原则:

  • 通过强增强生成的分布外(OOD)图像从低分辨率教师网络中提取知识。值得注意的是,即使CNN教师模型最初没有接受过此类增强的训练,这种方法也被证明是有效的。这种策略可以在ViT学生模型中成功引入类似CNN的特征局部性,最终提高了泛化性能,特别是对于少数(尾)类。
  • 为了提高特征的通用性,使用经过锐度感知最小化(SAM)训练的CNN教师模型来提取知识,促使所有ViT块中学习到长尾数据集所需的低秩泛化特征。
  • DeiT中,CLSDIST标记产生类似的预测,而DeiT-LT则是分化的。CLS标记成为多数类别的专家,而DIST标记则学习局部低秩特征,成为少数类的专家。因此,DeiT-LT对多数类和少数类都有效,这在DeiT中是不可能实现的。

DeiT-LT (DeiT for Long-Tailed Data)


DeiT-LT是专门针对长尾数据的数据高效ViT模型,跟DeiT一样,除了CLS标记之外,还包含通过蒸馏从CNN学习的DIST标记。

  此外,DeiT-LT引入了三个特殊的设计组件:

  • 通过分布外(OOD)图像进行有效蒸馏,这会引入局部特征并创建专家。
  • 使用DRW损失训练Tail Expert分类器。
  • 通过蒸馏从CNN教师学习低阶泛化特征。

Distillation via Out of Distribution Images

  在DeiT中,需要使用跟ViT一样的强增强图像来训练一个大型CNNRegNetY)用于蒸馏,这会产生额外的开销。相比之下,DeiT-LT使用常规的弱增强来训练小型CNNResNet-32)网络,然后在蒸馏过程中使用强增强图像获得预测进行蒸馏。

  这些强增强图像是CNN的分布外 (OOD) 图像,因为模型在这些训练图像上的准确度较低,如表 1 所示(这里的Acc应该是对应增强图片的准确率,非简单测试集。RegNetY16GF教师应该是强增强训练的,不然Tec Acc不应该这么高。而ResNet-32教师则应该全是弱增强训练的,所以增加数据增强后Tec Acc逐步下降)。与弱增强蒸馏相比,尽管对强增强图像的准确度较低,但你强增强蒸馏依然可以产生有效的效果。因为ViT学生学会模仿CNN教师对分布外图像的错误预测,这使得学生能够学习教师的归纳偏差。

  此外,论文发现通过混合两个类别的图像来创建额外的分布外样本也可以提高蒸馏性能。从教师预测的熵中可以看出,对于OOD样本的预测熵很高(即信息量更大)。总的来说,论文发现在蒸馏时增加不同数量的分布外数据有助于提高性能并导致CNN的有效蒸馏。

  通过使用分布外图像进行蒸馏,教师预测 通常与真实值 不同。因此,CLS标记和DIST标记的特征表达在训练时会有所不同。如图 4a 所示,CLS标记和DIST标记特征之间的余弦距离随着训练的进行而增加,导致CLS标记成为头类预测的专家,而DIST标记则专注于尾类预测。这个发现打破了DeiT中,CLS标记输出与DIST标记输出相似的现象。

Tail Expert with DRW loss.

  论文引入了延迟重加权(DRW)来计算蒸馏损失,使用因子 来衡量每个类别的损失,其中 类中在 个周期后的有效样本数。因此,总损失如下:

DRW阶段进一步增强了DIST蒸馏头对尾部类别的关注,从而提高了性能。如图 4a 所示,两个标记间的多样性在引入DRW阶段后得到了改善。DRW能够引导不同的CLSDIST标记的创建,分化为多数类和少数类的专家。

Induction of Local Features

  为了深入了解OOD蒸馏的通用性和有效性,论文仔细研究了DeiT-LT生成的尾部特征。在图 4b 中,绘制了ViT头部每个标记的平均注意力距离。

  • Insight 1

  在DeiT-LT第一个和第二个块中,出现了像CNNN一样关注邻域标记的头。由于这种对局部泛化的类不可知的特征,少数类的泛化能力有所提高(图 1c)。

  如果没有OOD蒸馏,DeiTViT基线在全局特征上过度拟合(图 4b),没有很好地泛化到尾部类别。因此,DeiT-LT中的OOD蒸馏是一种非常适合长尾场景的方法。

Low-Rank Features via SAM teachers

  为了进一步提高特征的泛化性,特别是对于数据较少的类,论文通过锐度感知最小化(SAM)训练的CNN教师模型,使其能够收敛到最小平面并得到低秩特征。

  为了分析LT情况下ViT学生模型的特征秩,论文专门计算尾类特征的秩。具体来说,对通过LDAMPaCo训练的不同教师模型进行SAM对比实验,观察DIST特征秩情况。

  • Insight 2

  如图 4c 所示,根据SAM教师模型的预测蒸馏出的ViT模型会出现跨ViT块的低秩泛化DIST标记特征。

  通过蒸馏最终的Logits向量就能将CNN教师的特征(低秩)迁移给学生,这对于ViT蒸馏是一个重大的新发现。

  • Training Time

DeiT以高分辨率()训练大型CNN RegNetY-16GF来蒸馏ViT,而论文则以较低的分辨率训练较小的ResNet-32 CNN()来实现有竞争力的性能。如表 1 所示,这显著减少了计算要求和总体训练时间 13 小时,因为ResNet-32模型可以快速训练。此外,使用SAM教师模型时,学生模型的收敛速度比使用普通教师模型时快得多,这证明了SAM教师对于低秩蒸馏的功效。

Experiments


Experimental Setup

  遵循DeiT中提到的设置来为论文的实验创建学生模型,对所有数据集使用DeiT-B学生模型架构。

  教师模型的训练,可以选择使用基于重新加权的LDAM-DRW-SAM方法或PaCo+SAM(使用SAM优化器训练PaCo)来训练。

  教师模型的选择,小规模数据集(CIFAR-10 LTCIFAR-100 LT)采用ResNet-32,大规模ImageNet-LTiNaturalist2018采用ResNet-50

  头部专家分类器使用CE损失训练,而尾部专家分类器则使用CE+DRW损失来训练来自教师网络的硬蒸馏目标。

  • Small scale CIFAR-10 LT and CIFAR-100 LT.

  模型训练 1200 个周期,其中尾部专家分类器的DRW训练从第 1100 个周期开始。除了DRW训练(最后 100 个时期)外,对输入图像使用MixupCutmix增强。使用AdamW优化器通过余弦学习率进行训练,基础LR

  • Large scale ImageNet-LT and iNaturalist-2018.

  模型分别训练了 1400 和 1000 个周期,尾部专家分类器的DRW训练分别从 1200 和 900 个周期开始。在整个训练过程中使用MixupCutmix增强,都遵循余弦学习率,基本LR

Result

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

来源:CVer

相关新闻

CVPR 2024 | COCO数据集升级!字节提出新一代数据集COCONut大模型时代的计算机视觉!CVPR 2024线上分享会全日程公布大模型时代的计算机视觉!CVPR 2024线上论文分享会启动Mamba成功杀入ECCV 2024!VideoMamba:高效视频理解的状态空间模型CVPR 2024 | 双手协作双物体的数据集TACO:引领可泛化手物交互的新方向英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码CVPR 2024 满分论文!LiSA:引入语义感知的激光雷达点云视觉定位网络复旦大学:没钱标数据的有福了!利用合成数据就能大幅提升大模型归纳推理能力CVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!CVPR 2024 | MotionEditor:首个面向动作编辑的视频扩散模型CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作即插即用,快速适配!港大FlashST:简单通用的智慧交通时空预测模型 | ICML 2024ICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」AAAI 2024 | 小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型CVPR 2024 | 腾讯提出LORS:低秩残差结构,瘦身模型不掉点!CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型ICML 2024爆火演讲!Meta等揭秘大模型内心世界:不同于人类的2级推理ICML 2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类的2级推理Diffusion4D:首个4D视频生成扩散模型!数分钟内实现4D内容生成,超81K的4D数据集已开源!CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型可复用的“企业AI人才梯队搭建”方法论:《数智时代的AI人才粮仓模型解读白皮书(2024版)》发布!| 极客邦科技双数研究院巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。