探索视频理解新境界！在12项任务中，Mamba先打败了Transformer

8月前

©作者 | 机器之心

探索视频理解的新境界，Mamba 模型引领计算机视觉研究新潮流！传统架构的局限已被打破，状态空间模型 Mamba 以其在长序列处理上的独特优势，为视频理解领域带来了革命性的变革。

来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究团队发布了一项开创性工作。他们全面审视了 Mamba 在视频建模中的多重角色，提出了针对 14 种模型 / 模块的 Video Mamba Suite，在 12 项视频理解任务中对其进行了深入评估。结果令人振奋：Mamba 在视频专用和视频 - 语言任务中均展现出强劲的潜力，实现了效率与性能的理想平衡。这不仅是技术上的飞跃，更是对未来视频理解研究的有力推动。

论文标题：

Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding

论文链接：

https://arxiv.org/abs/2403.09626

代码链接：

https://github.com/OpenGVLab/video-mamba-suite

在当今快速发展的计算机视觉领域，视频理解技术已成为推动行业进步的关键驱动力之一。众多研究者致力于探索和优化各种深度学习架构，以期实现对视频内容的更深层次解析。从早期的循环神经网络（RNN）和三维卷积神经网络（3D CNN），到目前广受瞩目的 Transformer 模型，每一次技术的飞跃都极大地拓宽了我们对视频数据的理解和应用。

特别是 Transformer 模型，以其卓越的性能在视频理解的多个领域 —— 包括但不限于目标检测、图像分割、以及多模态问答等 —— 取得了显著成就。然而，面对视频数据固有的超长序列特性，Transformer 模型也暴露出了其固有的局限性：由于其计算复杂度呈平方增长，使得对超长视频序列的直接建模变得异常困难。

在这样的背景下，状态空间模型架构 —— 以 Mamba 为代表 —— 应运而生，以其线性计算复杂度的优势，展现出处理长序列数据的强大潜力，为 Transformer 模型的替代提供了可能。尽管如此，目前对于状态空间模型架构在视频理解领域的应用，还存在一些局限性：一是主要集中在视频全局理解任务，如分类和检索；二是主要探索了直接进行时空建模的方式，而对于更多样化的建模方法的探索尚显不足。

为了克服这些局限，并全面评估 Mamba 模型在视频理解领域的潜力，研究团队精心打造了 video-mamba-suite（视频 Mamba 套件）。该套件旨在补充现有研究的不足，通过一系列深入的实验和分析，探索 Mamba 在视频理解中的多样化角色和潜在优势。

研究团队将 Mamba 模型的应用划分为四种不同的角色，并据此构建了一个包含 14 个模型 / 模块的视频 Mamba 套件。经过在 12 个视频理解任务上的全面评估，实验结果不仅揭示了 Mamba 在处理视频和视频 - 语言任务上的巨大潜力，还展现了其在效率和性能之间取得的卓越平衡。论文作者们期待着这项工作能够为视频理解领域的未来研究提供可参考的资源和深刻的见解。

研究背景

视频理解作为计算机视觉研究的基础问题，其核心在于捕捉视频中的时空动态，用一识别并推断活动的性质及其演变过程。目前，针对视频理解的架构探索主要分为三个方向。

首先，基于帧的特征编码方法通过循环网络（如 GRU 和 LSTM）进行时间依赖性建模，但这种分割的时空建模方式难以捕获联合时空信息。其次，三维卷积核的使用在卷积神经网络中实现了对空间和时间相关性的同步考虑。

随着语言和图像领域的 Transformer 模型取得巨大成功，视频 Transformer 模型也在视频理解领域取得了显著进展，展现出超越 RNNs 和 3D-CNNs 的能力。视频 Transformer 通过将视频封装在一系列 token 中，并利用注意力机制实现全局上下文交互和数据依赖的动态计算，从而在统一的方式下处理视频中的时间或时空信息。

然而，由于视频 Transformer 在处理长视频时的计算效率有限，出现了一些变体模型，它们在速度和性能之间取得了平衡。最近，状态空间模型（SSMs）在自然语言处理（NLP）领域展现了其优势。现代 SSMs 在长序列建模中表现出强大的表征能力，同时保持线性时间复杂度。这是因为它们的选择机制消除了存储完整上下文的需要。特别是 Mamba 模型，将时变参数纳入 SSM，并提出了一种硬件感知算法，以实现高效的训练和推理。Mamba 的出色扩展性能表明，它有望成为 Transformer 的一个有前景的替代方案。

同时，Mamba 的高性能和效率使其非常适合视频理解任务。尽管已有一些初步尝试探索 Mamba 在图像 / 视频建模中的应用，但其在视频理解中的有效性尚不明确。针对 Mamba 在视频理解中的潜力进行全面研究的缺失，限制了对其在多样化视频相关任务中能力的进一步探索。

针对以上问题，研究团队对 Mamba 在视频理解领域的潜力进行了探索。他们的研究目标是评估 Mamba 是否可以成为该领域的 Transformer 的一个可行替代方案。为此，他们首先要解决的问题是如何看待 Mamba 在理解视频方面中的不同角色。基于此，他们进一步研究了 Mamba 在哪些任务中表现得更出色。

论文将 Mamba 在视频建模中的作用分为以下四类：1) 时序模型，2) 时序模块，3) 多模态交互网络，4) 时空模型。针对每种角色，研究团队都在不同的视频理解任务上研究了其视频建模能力。为了公平地让 Manba 与 Transformer 一较高下，研究团队根据标准或改进的 Transformer 架构精心选择了用于对比的模型。在此基础上，他们得到了一个包含 14 个模型 / 模块的 Video Mamba Suite，适用于 12 个视频理解任务。研究团队希望 Video Mamba Suite 能成为未来探索基于 SSM 的视频理解模型的基础型资源。

四种角色

Mamba 作为视频时序模型

任务和数据：研究团队对 Mamba 在五个视频时间任务上的性能进行了评估：时间动作定位（HACS Segment），时间动作分割（GTEA），密集视频字幕（ActivityNet，YouCook），视频段落字幕（ActivityNet，YouCook）和动作预测（Epic-Kitchen-100）。

基准线和挑战者：研究团队选择了基于 Transformer 的模型作为各项任务的基线。具体来说，这些基线模型包括 ActionFormer，ASFormer，Testra 和 PDVC。为了构建 Mamba 的挑战者，他们将基线模型中的 Transformer 模块替换为基于 Mamba 的模块，包括如上图三种模块，原始的 Mamba (a)，ViM (b)，以及研究团队原创设计的 DBM (c) 模块。值得注意的是，在涉及因果推断的动作预测任务中，论文中将基线模型与原始的 Mamba 模块进行了性能比较。

结果和分析：论文中展示了不同模型在四项任务上的比较结果。总体而言，尽管一些基于 Transformer 的模型已经加入了注意力变体来提升性能。下表展示了 Mamba 系列相比现有 Transformer 系列方法，展示出了更加卓越的性能。

Mamba 用于多模态交互

研究团队不仅关注了单模态任务，还评估了 Mamba 在跨模态交互任务中的性能。论文中采用视频时间定位（VTG）任务评估了 Mamba 的表现。所涉及的数据集包括 QvHighlight 和 Charade-STA。

基准线和挑战者：研究团队使用 UniVTG 来构建基于 Mamba 的 VTG 模型。UniVTG 采用 Transformer 作为多模态交互网络。给定视频特征和文本特征，他们首先为每个模态添加可学习的位置嵌入和模态类型嵌入，以保留位置和模态信息。然后，将文本和视频标记连接起来，形成一个联合输入，进一步输入到多模态 Transformer 编码器中。最后，提取文本增强的视频特征，并将其送入预测头。为了创建跨模态的 Mamba 竞争者，研究团队选择了堆叠双向 Mamba 块，形成一个多模态的 Mamda 编码器，以替代 Transformer 基线。

结果和分析：该论文通过 QvHighlight 测试了多个模型的性能。Mamba 的平均 mAP 为 44.74，与 Transformer 相比有显著提升。在 Charade-STA 上，基于 Mamba 的方法展示出了和 Transformer 类似的竞争力。这表明 Mamba 具有有效整合多种模态的潜力。

考虑到 Mamba 是基于线性扫描的模型，而 Transformer 基于全局标记交互，研究团队直观地认为文本在标记序列中的位置可能会影响多模态聚合的效果。为了调查这一点，他们在表格中包括了不同的文本 - 视觉融合方法，并在图中展示了四种不同的标记排列方式。结论是，当文本条件与视觉特征的左侧融合时，可以获得最佳结果。QvHighlight 对此融合的影响较小，而 Charade-STA 对文本的位置特别敏感，这可能归因于数据集的特性。

Mamba 作为视频时序适配器

在评估 Mamba 在时序后建模方面的性能之外，研究团队还考察了其作为视频时间适配器的有效性。通过在以自我为中心的数据上执行视频文本对比学习来预训练双塔模型，该数据包含 400 万个带有细粒度叙述的视频片段。

任务和数据：研究团队对 Mamba 在五个视频时间任务上的性能进行了评估，其中包括：时序动作定位（HACS Segment），时序动作分割（GTEA），密集视频字幕（ActivityNet，YouCook），视频段落字幕（ActivityNet，YouCook）和动作预测（Epic-Kitchen-100）。

基准线和挑战者：TimeSformer 采用了分开的时空注意力块来分别建模视频中的空间和时间关系。为此，研究团队引入了双向 Mamba 块作为时序适配器，以取代原始的时序自注意力，改善分开的时空交互。为了公平比较，TimeSformer 中的空间注意力层保持不变。在这里，研究团队使用了 ViM 块作为时序模块，并将结果模型称为 TimeMamba。

值得注意的是，标准 ViM 块比自注意力块有更多的参数（略多于

），其中 C 是特征维度。因此，论文中将 ViM 块的扩展比率 E 设置为 1，将其参数量减少到

，以进行公平比较。除了 TimeSformer 使用的普通残差连接形式，研究团队还探索了 Frozen 风格适配方式。以下是 5 种适配器结构：

结果和分析

1. 零样本多实例检索。研究团队首先在表中评估了具有分开时空交互操作的不同模型，发现文中复现的 Frozen 风格残差连接与 LaViLa 的一致。当比较原始和 Frozen 风格时，不难观察到 Frozen 风格始终产生更好的结果。此外，在相同的适配方法下，基于 ViM 的时间模块始终优于基于注意力的时间模块。

值得注意的是，论文中使用的 ViM 时间块与时间自注意力块相比参数更少，突出了 Mamba 选择性扫描的较好的参数利用率和信息提取能力。

此外，研究团队进一步验证了时空 ViM 块。时空 ViM 块用整个视频序列上的联合时空建模取代了时序 ViM 块。令人惊讶的是，尽管引入了全局建模，但时空 ViM 块实际上导致了性能下降。为此，研究团队推测基于扫描的时空可能会破坏预训练空间注意力块产生空间特征分布。以下是实验结果：

2. 微调多实例检索和动作识别。研究团队继续在 Epic-Kitchens-100 数据集上使用 16 帧微调预训练模型进行多实例检索和动作识别。可以从实验结果中国呢观察到 TimeMamba 在动词识别的上下文中显著优于 TimeSformer，超出了 2.8 个百分点，这说明 TimeMamba 能够在细粒度时序方面有效地建模。

3. 零样本长视频问答。研究团队在 EgoSchema 数据集上进一步评估了模型的长视频问答性能。以下是实验结果：

无论是 TimeSformer 还是 TimeMamba，在 Ego4D 上预训练后，都超过了大规模预训练模型（例如 InternVideo）的性能。此外，研究团队从视频开始以固定的 FPS 不断增加了测试帧的数量，以探索 ViM 块长视频时间建模能力的影响。尽管两个模型都是用 4 帧预训练的，但随着帧数的增加，TimeMamba 和 TimeSformer 的性能稳步提高。同时，当使用 8192 帧时，可以观察到显著的改进。当输入帧超过 32 时，TimeMamba 通常比 TimeSformer 从更多的帧数中受益，表明时间 ViM 块在时序自注意力方面具有优越性。

Mamba 用于时空建模

任务和数据：此外，论文中还评估了 Mamba 在空间 - 时间建模方面的能力，具体在 Epic-Kitchens-100 数据集上评估了模型在零样本多实例检索方面的性能。

基线和竞争者：ViViT 和 TimeSformer 研究了将具有空间注意力的 ViT 转化为具有空间 - 时间联合注意力的模型。基于此，研究团队进一步扩展了 ViM 模型的空间选择性扫描，以包含时空选择性扫描。命名这个扩展后的模型为 ViViM。研究团队使用在 ImageNet-1K 上预训练的 ViM 模型进行初始化。ViM 模型包含了一个 cls token，该 token 被插入到拍平的 token 序列的中间。

下图中展示了将 ViM 模型转换为 ViViM的方法。对于给定的包含 M 帧的输入，在每帧对应的 token 序列的中间插入 cls token。此外，研究团队添加了时间位置嵌入，对每个帧初始化为零。然后将展平的视频序列输入到 ViViM 模型中。模型的输出是通过计算每帧的 cls token 的平均值来得到的。

结果和分析：论文中进一步研究了 ViViM 在零样本多实例检索方面的结果，实验结果如下表所示：

结果展示了不同时空模型在零样本多实例检索上的性能。当比较 ViT 和 ViViM 时，两者都是在 ImageNet-1K 上预训练的，可以观察到 ViViM 的性能超过了 ViT。有趣的是，尽管在 ImageNet-1K 上 ViT-S 和 ViM-S 之间的性能差距很小（79.8 vs 80.5），但 ViViM-S 在零样本多实例检索上显示出显著的改进（+2.1 mAP@Avg），这表明 ViViM 在建模长序列方面非常有效，从而提高了性能。

结论

这篇论文通过全面评估 Mamba 视频理解领域的表现，展示了 Mamba 可以作为传统 Transformers 的可行替代方案的潜力。通过包含 12 个视频理解任务的 14 个模型 / 模块组成的 Video Mamba Suite，研究团队展示了 Mamba 高效处理复杂时空动态的能力。Mamba 不仅性能超群，还能够更好地实现效率 - 性能之间的平衡。这些发现不仅强调了 Mamba 适用于视频分析任务，而且还为其在计算机视觉领域的应用开辟了新的途径。未来的工作可以进一步探索 Mamba 的适应性，并将其效用扩展到更复杂的多模态视频理解挑战中。

更多阅读