Bendi新闻
>
CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同

CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同

7月前

©作者 | 卫雅珂

单位 | 人大高瓴GeWu-Lab



论文题目:

Enhancing Multimodal Cooperation via Sample-level Modality Valuation

论文链接:

https://arxiv.org/pdf/2309.06255


代码链接:

https://github.com/GeWu-Lab/Valuate-and-Enhance-Multimodal-Cooperation



概述:样本级多模态差异的评估与解决
不平衡多模态学习问题(imbalanced multimodal learning problem)在近年已经引起了广泛关注。具体来说,在多模态学习中,往往采用联合训练的方式对各个模态同时进行学习。而模态间在特性、信息量等方面的差异导致在联合训练中,往往存在更易于学习的模态,模型对其的偏好主导了训练进程,导致其他模态未能被充分学习,抑制多模态学习的性能。

对于这一问题,近年来已经有许多研究者从优化、目标函数等方面给出了不同的解决方案(包括本实验室的论文:CVPR 2022 [1],ICASSP 2023 [2]ICLR 2024)。 在现有的方法中,往往从数据集整体的角度考虑这一问题,即对整个数据集而言,某个模态总是易学习、被模型所偏好的。

但在实际场景中,模态间的差异在样本间很可能不同。例如在图 1(a) 和 (b) 中,我们给出了两个同属于类别“motorcycling”的音视频样本。对于图 1(a) 的样本来说,摩托车较远,其视觉信息并不明显。而对于图 1(b) 的样本来说,其视觉信息为摩托车的近距影像,视觉信息明确且清晰。因此,可以想见,在对这两个样本的分类中,前者将主要依靠音频信息,而后者视觉信息明确,主要依赖视觉信息。

但在现有方法中,该样本级的模态差异并未被关注,也难以被观测。如何评估并缓解这种细粒度的样本级模态差异是亟待解决的问题。因此,本文聚焦于多模态合作学习的新视角--样本级的模态评估与协同。


▲ 图1. 样本级模态差异示例


在本文中,我们首先提出基于夏普利值(Shapley value)的细粒度模态差异评估方法,该方法能够在样本级别评估各个模态对于最终正确预测的贡献。根据图 1(c) 所示,对于刚才提到的两个样本,其模态间对最终正确预测的贡献差异的确恰恰相反:即使是同一类别的样本,都可能会发生样本间模态贡献差异不同的现象。

此外,通过对数据集中所有样本某模态的贡献取均值,我们的方法依然也可以验证数据集级别上的模态差异。例如,根据图 1(d) 所示,在代表性多模态数据集(Kinetics Sounds 和 UCF-101)上,模态整体的差异明显存在。在 Kinectics Sounds 数据集上,音频模态在所有样本的平均贡献高于视觉模态。在 UCF-101 数据集上,RGB 模态在所有样本的平均贡献高于光流模态。 

进一步的,为了更好评估细粒度模态间差异,我们提出了整体均衡但存在样本级模态差异的 MM-Debiased 数据集。该数据集有音频和视觉两个模态。根据图 1(d) 所示,在所有样本的贡献均值上,音频和视觉模态较为均衡。

在图 2 中,我们给出了现有不平衡学习方法在不同数据集上相对 Concatenation baseline 的效果增益。不出意外的是,虽然现有不平衡学习方法在典型多模态数据集,例如 Kinetics Sounds 上取得了增益,但在整体模态贡献均衡的 MM-Debiased 数据集上并未有效果的提升,甚至导致模型效果下降。

▲ 图2. 不平衡学习方法在不同数据集上相对Concatenation baseline的效果增益


因此,本文提出了样本级采样方法,结合细粒度模态贡献差异评估的结果,通过针对性采样的策略,促进样本级模态差异的缓解。具体来说,如图 3 所示,当两个模态合作完成预测时,通过评估我们发现,其中某个模态为低贡献模态,对正确预测并未作出足够贡献,说明多模态间合作存在不均衡,低贡献模态的学习需要针对性增强。

因此,我们通过针对性采样策略增强对低贡献模态的学习,从何使得模态贡献更加均衡,达到了更好的多模态合作效果。根据图 2 所示,我们的方法在典型多模态数据集 Kinetics Sounds 以及整体模态贡献均衡的 MM-Debiase 数据集上都取得了良好的效果。

▲ 图3. 评估并针对性增强低贡献学习,以达到更均衡的模态贡献及更好的模态间合作



细粒度模态贡献差异评估

本节介绍所提出的基于夏普利值(Shapley value)的细粒度模态差异评估方法。对 一个有 个模态的样本。其真实标签为 一个由样本 所有模态输入构成的有限非空集合。将多模态模型记做
假设 为由输入模态构成的集合,。那么,当采用 作为输入时,多模态模型的预测标签记做 。函数 为多模态预测结果到其收益(benefits)之间的映射:

当预测正确时,收益为所输入模态集合中模态的个数。为了考虑某个模态在所有可能情况下的预测结果的收益,我们将所有模态可能的排列记做 。当模态个数为 时,。对于样本 的模态的第 个模态,我们将其在某排列 中的前序模态 (predecessors) 记 。那么,该模态 在该排列 中的边际贡献记做:
边际贡献 度量了当引入模态 后,多模态预测的收益的变化量。对模态 在所有可能的排列 中的边际贡献取平均,得到其对样本 的贡献为:
需要注意的是,所有模态贡献的总 际上就是以所有模态作为输入时正确预测的收益。因此,对于以所有模态为输入的一般多模态模型来说,当一种模态的贡献增加时,其他模态的贡献也会相应减少。借助该细粒度模态贡献评估指标,我们就可以合理地观察每个样本中各个模态的贡献。

重采样增强策略

根据此前在不同数据集上对模态贡献的估计(如图 1 所示),多模态数据集中往往存在低贡献模态 ,对多模态模型的预测贡献不足。根据本文分析,提升低贡献模态的判别性可以扩大其贡献。
因此,我们提出在训练过程中,有针对性地对各个样本的低贡献模态进行重采样,提升对低贡献模态的学习。具体来说,为了确保基本的辨别能力,我们首先对多模态模型进行几轮 warmup。而后,在每一个 epoch 之前进行一次细粒度模态贡献估计,观察各个样本中各个模态的贡献,进而在该 epoch 的训练中对低贡献模态的输入重新采样,最终有针对性地提高对低贡献模态的学习。
在本文中,我们提供了精细高效的样本级重采样方法和低耗但有效的模态级重采样方法。
样本级重采样
经过细粒度模态贡献评估后,每个样本的低贡献模态 就能被很好地区分出来,我们就能在样本级对其学习进行促进。具体的重采样频数由当前epoch其贡献值 动态决定。具体来说,对于特定样本 ,模态 的重采样频数为:
其中 为单调递增函数。对低贡献低模态的重采样频数与其贡献值成反比,即贡献值越低,重采样频数越高。在重新采样过程中,我们只采样低贡献模态,其他模态的输入会被置 0,以确保有针对性的学习。
▲ 图4. 样本级重采样方法



模态级重采样


虽然样本级模态估值可以提供精细的单模态贡献,但当数据集规模相当大时,逐个样本进行贡献评估可能会产生较高的额外计算成本。因此,我们还提出了更高效的模态级方法来降低计算成本。如图 1(d) 所示,除了样本之间的贡献差异外,低贡献模态的现象也具有数据集级偏好。因此,我们提出了模态级再采样策略,即随机抽取训练样本的子集进行模态贡献估值来近似估计平均单模态贡献,以减少额外的计算成本。

具体来说,我们在训练集中随机抽取包含 个样本的子集,借此模态的平均贡献可以被近似估计。具有较低平均贡献的模态 可以被识别出来。而后,其他模态保持不变,在训练过程中以特定概率 对样本 中的模态 进行动态重新采样:

其中 。首先,将具有较低平均贡献模态 与其他模相比的平均贡献差异首先进行归一化,然后送入输出值介于 0 与 1 之间的单调递增函数
▲ 图5. 模态级重采样方法

部分实验结果展示

与其他不平衡多模态学习方法的比较

我们在多个不同的数据集上与其他不平衡多模态学习方法进行了比较。我们的方法具有明显优势,尤其是在整体模态差异不明显但仍具有样本间模态差异的 MM-Debiased 数据集上。

▲ 表1. 和其他不平衡多模态学习方法的比较

同时,如图 6 所示,相较其他方法,我们的方法在均衡模态间差异方面更加有效。

▲ 图6. 使用不平衡多模态学习的方法前后模态间贡献差异比较

样本级差异评估

此外,如图 7 中所示,我们的细粒度样本级方法可以很好得捕捉并相应均衡样本级别的模态贡献差异。虽然具有一定的计算成本,但能够很好解决细粒度的样本差异。

 图7. 对图1(a/b)中两个样本的贡献评估


未来展望

在本文中,我们借助博弈论中的夏普利值理论,引入了一种样本级模态估值,以度量模态贡献,进而促进和改善模态之间的协同。本文提出了两种方法来提升低贡献模态被抑制的贡献,从而改善多模态合作。

但在本文中,暂未考虑模态之间自然存在的信息量的差异。例如,对于类别为 drawing picture 的音视频样本来说,视觉模态天然比音频模态具有更高的判别信息。因此,即使对音频模态加强学习,也无法使其贡献与视觉模态均等。因此,在未来的工作中,在均衡各个模态的学习时,需要进一步考虑模态信息量的天然差异。


参考文献

[1] https://zhuanlan.zhihu.com/p/507823626

[2] https://zhuanlan.zhihu.com/p/617466497



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·
·

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度CVPR 2024 | 双手协作双物体的数据集TACO:引领可泛化手物交互的新方向CVPR 2024 | MotionEditor:首个面向动作编辑的视频扩散模型CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式科学匠人 | 程鹏:“研究员+工程师”模式的探路者,推动人工智能与系统协同进化CVPR 2024 | DeiT全新升级!DeiT-LT:针对长尾数据的改进模型CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型CVPR 2024 满分论文!LiSA:引入语义感知的激光雷达点云视觉定位网络CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解CVPR最佳论文候选:NeRF新突破!用启发式引导分割去除瞬态干扰物CVPR 2024 | 南洋理工提出动态人体渲染新范式,高度还原跳舞时飞扬的裙摆小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式大模型时代的计算机视觉!CVPR 2024线上分享会全日程公布大模型时代的计算机视觉!CVPR 2024线上论文分享会启动CVPR一作整理的计算机视觉学习路线ACL2024:浙江大学提出大小模型协同的跨文档理解,低成本高表现CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your Noise爆发式的短剧行业,如何在多线协同中寻找秩序感?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。