Bendi新闻
>
首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

11月前
机器之心专栏
机器之心编辑部

能够有效实现多模态交叉提示跟踪。

目标跟踪是计算机视觉的一项基础视觉任务,由于计算机视觉的快速发展,单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性,我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷,以实现复杂环境下全天候目标跟踪。


然而,现有的多模态跟踪任务也面临两个主要问题:


  1. 由于多模态目标跟踪的数据标注成本高,大多数现有数据集规模有限,不足以支持构建有效的多模态跟踪器;

  2. 因为不同的成像方式在变化的环境中对物体的敏感度不同,开放世界中主导模态是动态变化的,多模态数据之间的主导相关性并不固定。


在 RGB 序列上进行预训练,然后以完全微调的方式转移到多模态场景的许多多模态跟踪工作存在时间昂贵和效率低下的问题,同时表现出有限的性能。


除了完全微调方法之外,受自然语言处理 (NLP) 领域参数高效微调方法成功的启发,一些最近的方法通过冻结骨干网络参数并附加一组额外可学习的参数,将参数高效 prompt 微调引入到多模态跟踪中。


这些方法通常以一种模态 (通常是 RGB) 为主导模态,另一种模态作为辅助模态。然而,这些方法忽略了多模态数据的动态主导相关性,难以在如图 1 所示的复杂场景中充分利用互补的多模态信息,从而限制了跟踪性能。


图 1:复杂场景下不同的主导模态。


为了解决上述问题,来自天津大学的研究人员设计出了一种双向 adapter 用于多模态跟踪 (BAT)。与在主导模态中添加辅助模态信息作为提示以增强基础模型在下游任务中的表示能力的方法 (通常使用 RGB 作为主要模态) 不同,该方法没有预设固定的主导模态 - 辅助模态,而是在辅助模态向主导模态变化的过程中动态提取有效信息。


BAT 由两个共享参数的特定于模态分支的基础模型编码器和一个通用的双向 adapter 组成。在训练过程中,BAT 没有对基础模型进行完全的微调,每个特定的模态分支由具有固定参数的基础模型初始化,仅训练新增的双向 adapter。每个模态分支从其他模态中学习提示信息,与当前模态的特征信息相结合,增强表征能力。两个特定模态的分支通过通用双向 adapter 执行交互,在多模态非固定关联范式中动态地相互融合主导辅助信息。


通用双向 adapter 具有轻量级沙漏结构,它可以嵌入到基础模型的每一层 transformer 编码器中,而不需要引入大量的可学习参数。通过添加少量的训练参数 (0.32M),BAT 与全微调方法和基于提示学习的方法相比具有更低的训练成本,获得了更好的跟踪性能。


论文《Bi-directional Adapter for Multi-modal Tracking》:



论文链接:https://arxiv.org/abs/2312.10611

代码链接:https://github.com/SparkTempest/BAT


主要贡献


  • 我们首先提出了一个基于 adapter 的多模态跟踪视觉提示框架。我们的模型能够感知开放场景中主导模态的动态变化,以自适应的方式有效融合多模态信息。

  • 据我们所知,我们首次为基础模型提出了一个通用的双向 adapter。它结构简单、高效,能有效地实现多模态交叉提示跟踪。通过仅添加 0.32M 可学习参数,我们的模型可以鲁棒应对开放场景下的多模态跟踪。

  • 我们深入分析了我们的通用 adapter 在不同层深的影响。我们还在实验中探索了更高效的 adapter 架构,并验证了我们在多个 RGBT 跟踪相关数据集上的优势。


核心方法


如图 2 所示,我们提出了一个基于双向 Adapter 的多模态追踪视觉提示框架 (BAT),框架具有 RGB 模态和热红外模态的双流编码器结构,每个流使用相同的基础模型参数。双向 Adapter 与双流编码器层并行设置,从两个模态相互交叉提示多模态数据。


方法没有对基础模型进行完全的微调,仅通过学习轻量级双向 Adapter,将预先训练好的 RGB 追踪器高效地转移到多模态场景中,实现了出色的多模态互补性和卓越的追踪精度。


图 2:BAT 的总体架构。


首先将每种模态的模板帧(第一帧中目标物体的初始框)和搜索帧(后续追踪图像)转换为 ,将它们拼接在一起分别传递给 N 层双流 transformer 编码器。

 

双向 adapter 与双流编码器层并行设置,可以学习从一种模态到另一种模态的特征提示。为此,将两个分支的输出特征相加并输入到预测头 H 中,得到最终的跟踪结果框 B。

 


双向 adapter 采用模块化设计,分别嵌入到多头自注意力阶段和 MLP 阶段,如图 1 右侧所示双向 adapter 的详细结构,其设计用于将特征提示从一种模态转移到另一种模态。它由三个线性投影层组成,tn 表示每个模态的 token 个数,输入 token 首先通过下投影被降维为 de 并通过一个线性投影层,然后向上投影到原始维度 dt 并作为特征提示反馈到其他模态的 transformer 编码器层。


通过这种简单的结构,双向 adapter 可以有效地在  模态之间进行特征提示,实现多模态跟踪。


由于冻结了 transformer 编码器和预测头,因此只需要优化新增 adapter 的参数。值得注意的是,与大多数传统 adapter 不同,我们的双向 adapter 是作为动态变化的主导模态的跨模态特征提示而发挥作用的,确保了开放世界中良好的跟踪性能。


实验效果


如表 1 所示,在 RGBT234 和 LasHeR 两个数据集上的对比表明我们在的方法在准确率和成功率上均优于最先进的方法。如图 3 所示,在 LasHeR 数据集的不同场景属性下,与最先进方法的性能比较也证明了所提出方法的优越性。


这些实验充分证明了我们的双流追踪框架与双向 Adapter 成功地追踪了大多数复杂环境中的目标,并自适应地从动态变化的主导 - 辅助模态中提取有效信息,达到了最先进的性能。


表 1 RGBT234 和 LasHeR 数据集上的整体性能。

 

图 3 LasHeR 数据集中不同属性下 BAT 和竞争方法的比较。


实验证明我们在复杂场景中从不断变化的主导 - 辅助模式中动态提示有效信息的有效性。如图 4 所示,与固定主导模态的相关方法相比,我们的方法即使在 RGB 完全不可用的情况下也能有效地追踪目标,当 RGB 和 TIR 在后续场景中都能提供有效的信息时,追踪效果要好得多。我们的双向 Adapter 从 RGB 和 IR 模态中动态提取目标的有效特征,捕获更准确的目标响应位置,并消除 RGB 模态的干扰。

 

图 4 跟踪结果的可视化。


我们同样在 RGBE 追踪数据集上评估了我们的方法。如图 5 所示,在 VisEvent 测试集上与其他方法相比,我们的方法在不同复杂场景下的追踪结果最为准确,证明了我们的 BAT 模型的有效性和泛化性。

 

图 5 VisEvent 数据集下追踪结果。

 

图 6 attention 权重可视化。


我们在图 6 中可视化了不同层跟踪目标的注意力权重。与 baseline-dual (基础模型参数初始化的双流框架) 方法相比,我们的 BAT 有效地驱动辅助模态向主导模态学习更多的互补信息,同时随着网络深度的增加保持主导模态的有效性,从而提高了整体跟踪性能。


实验表明,BAT 成功地捕获了多模态互补信息,实现了样本自适应动态跟踪。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

来源:机器之心

相关新闻

AAAI 2024 Oral|打破边界!利用CLIP的多任务多模态视频行为识别方法首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次AI早知道|元象开源首个多模态大模型XVERSE-V;信通院发布国内首个汽车大模型标准元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入​Gemini终于赢了GPT-4o!Video-MME首个视频多模态基准来了!中国版GPT-4o炸场:国内首个流式多模态交互模型,现场实时且丝滑全球首个自主进化多模态MoE震撼登场!写真视频击败Sora,人大系团队自研底座VDT清华开源全球首个基于U-ViT的多模态扩散大模型UniDiffuserICML 2024 | 上海交大发布UP2ME,首个多用途通用时间序列分析框架上海AI Lab开源首个可替代GPT-4V的多模态大模型WWW 2024 | 华为、清华提出个性化多模态生成新方法,让AIGC更懂你AI早知道|国内首个兰花AI智能对话机器人;全球首款集成多模态AI 助手的眼镜CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!ICML 2024 | 自动化所提出SpikeLM,首个完全脉冲驱动的通用语言建模方案华为查询建议新范式MMQS入选WWW 2024,解锁基于人类反馈的多模态查询建议ACL 2024 | 多模态大模型能揭示图像背后的深意吗?CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同张建伟院士将出席GOTC 2024,分享多模态具身智能与机器人系统创新成果AI早知道|商汤科技发布“日日新5o”;支付宝发布国内首批多模态医疗大模型顶刊TPAMI 2024!多模态图像修复与融合新突破!DeepM2CDL:多种任务实现SOTA性能[COLING 2024教程] 多模态大语言模型MLLM系列教程AI早知道|百度即将发布全新App腾讯元宝;行业首发多模态大模型辅助视障人士ACM MM 2024深度多模态生成和检索研讨会,诚邀各界专家学者参与ICLR 2024 | 图领域首个通用框架!任意数据集、分类问题都可搞定!华盛顿大学&北大&京东出品
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。