LLaVA-HD全新升级，更快更强！已开源

国际科技财经移民娱乐民生时事体育

Bendi新闻

6月前

论文标题：

Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models

论文链接：

https://arxiv.org/abs/2406.08487

代码链接：

https://github.com/yfzhang114/SliME

高分辨率的视觉输入近期被证明是大型多模态模型（LMMs）的基础，这对视觉感知和推理至关重要。现有的研究通常采用一种很直接的分辨率提升方法，其中图像由全局和局部分支组成，后者是被切片的图像块，但被调整为与前者相同的分辨率。这意味着更高的分辨率需要更多的局部块，从而导致高昂的计算开销，同时，局部图像标记的主导地位可能削弱全局上下文。

来自中科院，松鼠 Ai，阿里以及 Meta 的研究人员提出了一种新的处理策略 SliME, SliME 的核心在于，对 global 和 local patches 采取不同的处理策略，强调 global 特征的主导地位并尽可能挖掘全局上下文，压缩 local 特征以保证计算效率。除了方法之外，本文还收集并处理了一个对图像细节有高要求的数据集 SMR，增强了高分辨率处理模块的训练。

现有工作的不足

大型多模态模型（LMMs）在近期蓬勃发展。然而，它们在复杂的视觉感知和推理任务上仍然面临挑战。实证研究表明，采用更高分辨率是一种良好的解决方案。例如，LLaVA-Next 将高分辨率图像划分为多个块，独立编码每个块，然后将所有局部块标记与原始全局图像标记拼接在一起，尽管这样做会导致计算成本的上升。

其他模型如 Monkey 和 LLaVA-UHD 也将图像划分为块，但随后压缩这些块以避免冗余标记。在这些情况下，对于高分辨率图像，局部图像标记主导了特征空间。例如，在一张 1024×1024 的图像中被分为 9 个块时，全局图像标记仅占 1/10。

SliME

我们的核心思想是全局信息应该被优先考虑，因此我们旨在提取和保留尽可能多的全局上下文，同时用局部图像细节增强它。在这项研究中，

我们首先根据分辨率将图像分割成块。然后将图像标记分为两组：全局视图和局部块（图1（a））。
对于前者，我们保留所有token以维护所有上下文信息，并利用混合适配器进一步探索全局上下文。如图1（b）所示，我们使用 MLP 将图像特征投射到 LLM 的特征空间，并使用一组可学习的查询（称为 qformer）来提取关键的全局信息。通过混合两个适配器的输出，有助于 LLM 更有效地理解全局上下文。
考虑到局部块，它们提供了额外的图像细节，我们使用 learnable query 进行压缩以降低计算成本（图1（c））。我们进一步提出了一种文本引导的路由器来选择与输入指令或问题最相关的局部图像标记，从而避免过多的图像标记并关注相关的图像信息（图1（d））。
同时训练全局投影和局部压缩是具有挑战性的。投影层的简单性使其易于训练，但也导致模型由于过度依赖全局特征而忽视局部特征，迅速退化。我们将其形式化为 bi-linear problem，并从理论上证明同时更新这两个模块不会收敛到最佳结果。相反，我们建议交替训练全局投影模块和局部压缩模块，以确保全局和局部特征都能被有效地学习和利用。
本文精心收集和筛选数据集，创建了科学和数学推理数据集（SMR），涵盖了自然科学、数学问题和科学图表理解等九项具有挑战性的任务。其中一些任务提供了完整的推理路径，迫使模型阐明整个推理过程。重要的是，SMR 数据集中的许多图像包含丰富的注释。完成这些复杂的推理任务需要对图像细节的透彻理解，这将大大有利于我们框架的训练。

2.1 Refining Global Context with a Soft Mixture of Experts

▲ 图2: 交替训练的重要性

通过自适应切片扩展输入分辨率：我们最初探索了用于切片图像的各种网格选项，类似于 LLaVA-Next，但具有更精细的粒度（见图1(a)）。我们研究了从 , 到的分辨率，以确定最有效的选项。

对于形状为 W 和 H 的图像，我们遍历所有可用的分区策略。例如，当使用策略时，调整比例可以计算为

。缩放后的分辨率将是

，浪费的分辨率将是

。我们通过最大化利用的分辨率和最小化浪费的分辨率来选择最佳分区。

为什么不通过压缩全局图像标记来提高效率？我们的方法受到经验观察的启发，与之前的发现一致：当使用基于注意力的模型作为适配器来减少标记或弥合模态差距时，可能需要更复杂的超参数搜索才能实现与更简单的 MLP 相当的性能。

如图 2 所示，用相同数量标记的查询前置器替换 LLaVA-v1.5 的 MLP 适配器，在大多数基准测试中表现明显较差。一个更简单的投影器迫使 LLM 更好地理解视觉输入，从而提升泛化能力。因此，我们避免减少全局图像的标记数量，而是通过简单的投影保留所有全局信息。

通过专家 soft mixture 精炼全局上下文：尽管 qformer 在大多数基准测试中的表现不如 MLP，但可学习的查询嵌入和注意力机制允许不同的特征选择策略，并且在某些基准测试（如 ScienceQA）中，qformer 表现更好。

基于我们的分析，我们提出了一种新方法，通过利用 MLP 和查询前置器适配器的优点来精炼全局上下文特征。具体来说，我们采用一个噪声专家混合（MOE）框架来结合这两种类型框架的优势。在此框架中，对于来自视觉编码器的特征x，一个学习的门控网络 G 确定两个适配器的权重：

门控网络学习根据输入特征动态调整每个适配器的重要性。为了防止门控网络主要激活同一个适配器，我们在训练过程中引入了可学习噪声。这通过以下公式实现：

2.2 Local Feature Mining with Compression and Selection

Local Feature Compression. 我们采用了 qformer，该架构利用了个查询嵌入，记作。其中，表示从视觉编码器获得的图像特征的维度。我们将设置得比从视觉编码器导出的原始令牌数量少，旨在减轻计算负担，同时保留重要信息。通过应用 attention，我们协调这些查询嵌入与局部图像特征之间的交互。

Text-Guided Router. 本文认为并非所有局部特征都与提出的问题相关。例如，在图1(d) 中，问题“这是什么品种的狗？”仅涉及特定的局部图像区域，丢弃无关的特征可以显著减少图像信息。

在这项工作中，我们探索了一种简单的基于余弦相似性路由策略。给定文本嵌入和投影的局部图像特征，我们计算分数为。对文本令牌取平均值并对图像令牌应用 softmax 得到。一旦为每个局部特征获得了分数或相关性指标，我们就采用自适应选择策略。具体来说，我们将分数从高到低排序，并选择特征直到累积分数超过阈值。这个超参数平衡了局部特征的效率和完整性。

我们的实验表明，选择特定的局部特征不会降低性能。相反，通过忽略无关特征并使用更少的令牌，我们在大多数基准测试中实现了更好的性能。在训练期间，选择分数上加入来自的高斯噪声以保持特征的多样性。

Alternating Training Scheme. 首先，在阶段 I（见图 1(b)），使用全局图像对适配器进行训练。随后，在阶段 II（见图 1(c)），适配器保持固定，而仅使用局部补丁对局部压缩层进行训练。最后，在阶段 III（见图 1(d)），同时训练全局和局部特征。

我们的实验表明，在单一阶段同时训练适配器和局部压缩层会导致次优性能。这种差异源于模型过于关注全局特征，因为全局特征只需要投影且没有信息损失，使其更容易学习。因此，我们在阶段 II 限制使用局部补丁进行压缩层训练。这种方法确保了顺序学习，先投影，然后压缩局部特征（图 1 中的 Local vs Local w. alt）。

此外，交替训练可以弥合两种常见适配器：MLP 和查询前置架构之间的性能差距。如前所述，当使用基于注意力的模型作为适配器时，这些模型提供了更多的灵活性，但其性能可能不如简单的 MLP 适配器，我们发现交替训练显著提高了性能（图 1 中的 query former vs query former w. alt3）。这种方案可能会为未来的工作提供启示，促进更复杂但灵活的适配器选项的训练。

2.3 Importance of Alternating Training for Optimizing Bilinear Functions

交替训练对于 SliME 的成功至关重要。本节还将阐明为什么在多模态学习中，最初冻结一个模态并优化一个模态的适配器，然后再进行跨多个模态的联合优化，是比较常见的做法。

bi-linear 的形式在深度学习模型中普遍存在，特别是在多模态学习中，不同模态的表示通常通过点积对齐。设目标矩阵表示为，其中是两个归一化向量。我们的目标是找到近似的秩-1 矩阵，这导致以下优化问题：

在 LMMs 中，视觉编码器和适配器可以看作是视觉模态，而其他部分分类为文本模态，目标可以看作是最优的 LMM。在我们的框架中，我们将适配器和局部压缩层视为不同的函数，旨在近似最佳模态适应参数。假设和仅仅是向量当然是一种简化，可能无法完全捕捉整个模型的复杂性。然而，这种简化允许我们更有效地分析问题。

众所周知，的最优解与的最大特征向量对齐，即

因此，的最优解应与矩阵的最大特征向量对齐。设和为初始解，其形式如下

其中是两个标量。这里，我们利用了和必须位于和 span 的子空间这一事实。然后我们有以下定理：

定理 1 使用梯度下降法，我们更新 和 的解为 同时使用上式更新 和 在优化双线性形式的目标函数时不太理想，因为梯度下降更新不一定收敛到最优解。

我们将证明，交替优化可以有效地解决梯度下降（或更准确地说，同时更新和）的问题。具体而言，我们将固定优化，然后固定优化。我们将证明这种方法通过交替优化收敛到最优解。

定理 2 设 。我们将通过交替优化获得的序列解 重写为 。 在迭代中演变为 即，交替优化确保

这意味着必然收敛到的最大特征向量，从而解决了梯度下降的局限性。

2.4 Expanding Dataset Scope with Challenging Reasoning Tasks

▲ 图3：SMR 数据集

生成源数据和指令数据。SMR 的创建涉及对公开可用数据集的精细合并，包括 Arxiv-QA, ScienceQA, MATH-Vision, TextBookQA~\citep, GeoQA3, Geometry3K, TabMWP, DVQA, AI2D, 和 ChartVQA。这些数据集中的问题类型和相关图像的多样性如图 Fig.~ 所示，给现有的指令数据集带来了独特的挑战，如图 3 所示。SMR 与传统指令调优数据集之间的差异体现在两个关键方面：

1. 具有挑战性的推理任务。许多物理/社会科学和数学任务需要高级推理能力。特别是，诸如 Arxiv-QA, GeoQA3 和 TabMWP 等数据集提供完整的推理路径，包括得出最终结果的中间步骤。在这种情况下，模型不仅要掌握基础知识，还要能清晰表达复杂的推理过程，这是一项更为艰巨的任务。

2. 对图像细节理解的需求。所有任务都需要对视觉细节有深刻的理解，因为许多图像包含丰富的注释信息或需要全面视觉分析的问题。这对于训练我们的高分辨率框架特别有益。为了确保数据的准确性，我们在收集后进行了仔细筛选。这涉及识别和修复诸如模糊图像或混乱文本、无关的图像-文本对，以及不能导致正确答案或可能导致错误结论的错误推理路径。对于后者，我们使用 GPT-4V 创建新的准确推理路径。

Experiment

3.1 Numerical Results

▲ 表1：Comparison with SoTA methods

一般问答和开放式生成。我们评估了 SliME 在各种基准上的性能，涵盖了学术任务导向的评估和最近专为指令遵循的大语言模型（LLMs）量身定制的基准，总计 9 个。

我们的结果表明，SliME 在所有基准上均表现出优异的性能，即使与相似规模的 LLMs 相比，SliME 所使用的预训练和指令调优数据集明显更小。值得注意的是，SliME-8B 在某些基准（如 MMB 和 MME）上甚至超越了 Gemini Pro。先前的研究经常指出，LoRA 模型的性能与全面微调相当，这一趋势在我们的许多基准上也得到了验证。

然而，我们观察到使用 LoRA 训练的模型在指令遵循任务中表现不佳。这一观察得到了在 LLaVA 基准中 SliME-8B 和 SliME-8B† 之间的性能差距的支持。此外，在对 MathVerse 的评估中，我们发现尽管模型提示明确要求简洁的答案，SliME-8B† 始终生成包含中间推理的回答，而 SliME-8B 没有这种行为。我们在附录中对这些不一致性进行了详细分析。

▲ 表2：Comparison with SoTA methods on Science and Mathematical Reasoning benchmarks

科学、数学和幻觉。我们进一步评估了 SliME 的幻觉特性和数学能力。如表 2 所示，SliME 在所有三个数学基准上均达到了最先进的性能，与 Gemini Pro 相当。此外，SliME 在 ScienceQA-Img 和幻觉基准上的表现尤为显著，证明了所提出的 SliME 的有效性。

3.2 Ablation Studies and Analysis

为什么全局和局部处理策略的差异是必要的？LLaVA-HD 不压缩局部特征，相反，所有图像特征都通过 MLP 直接投影，导致最大上下文大小为 4096。这种方法显著增加了训练和推理时间。相反，Monkey 使用 144 个可学习查询嵌入压缩所有全局和局部图像令牌，类似于 SliME。

由于图像特征主要由局部图像细节主导，LLaVA-HD 对 SQA 数据集不利。相反，对于需要更多图像细节的数据集，如 VQAT，LLaVA-HD 始终表现出性能提升。Monkey 的方法，压缩所有特征，在 SQA 和 VQAT 上比 LLaVA-HD 高出近 1 分，但在其他基准上表现较差，强调了保持全局上下文不压缩的重要性。相比之下，SliME 保持所有全局上下文并通过压缩提供额外的图像细节，无论数据集是优先考虑全局上下文还是局部细节，均能取得优异的结果。

交替训练对性能的影响：在本部分中，我们探讨了交替训练对模型性能的影响。为了评估交替训练的重要性，我们首先直接比较性能（表 3 中的第 4 行和第 7 行），揭示了它们之间显著的性能差距。为了进一步探索这一现象，我们分别将全局和局部特征作为图像令牌，以评估每种特征提供的图像信息量。值得注意的是，对于端到端训练的模型，仅使用全局特征就能取得令人满意的结果，而局部特征训练不足，导致大多数基准上的性能较差。

相反，当仅使用 SliME 的局部特征时，性能显著提高，这可归因于模型专注于学习局部特征压缩，导致局部特征训练良好。尽管有此改进，仅使用局部特征在基准上仍然不足，突显了全局视角的关键性。

保留令牌数量的影响：我们验证了我们的假设，即更多的图像令牌并不总能带来更好的结果。例如，当设置为 75% 时，大多数基准上都显现出一致的性能提升。这表明，通过丢弃无关的图像令牌和填充令牌，模型可以更加关注与所提出问题最相关的部分。