中科院，CMU，Meta等联合出品：去除LLM先验对多模态大模型的负面影响

科学

10月前

大型视觉语言模型在近期发展迅速（LVLMs），他们使用图像-文本对进行预训练或使用专门的视觉指导调整数据集进行微调，将大语言模型（LLM）拓展为了处理文本和图像的多模态模型。

尽管这些模型擅长理解复杂的视觉模式并将其转化为语言，来自中科院，CMU，阿里巴巴，squirrel AI 以及 Meta AI 的研究人员揭示了一个显著问题。由 LVLMs 生成的内容在很大程度上偏向于在预训练期间使用的底层 LLMs，而不是受到输入图像的影响。即使在图像完全噪声或不存在的情况下，LVLMs 也会生成置信度很高的答案，表明了 LVLM 存在一种对 LLM 先验的偏见。

针对这个问题，作者提出了两种通过 training-free 的思路进行 debias。

论文链接：

https://arxiv.org/abs/2403.05262

代码链接：

https://github.com/yfzhang114/LLaVA-Align

Exploring the Impact of LLM Biases on LVLMs

为了评估 LLM 偏见对 LVLMs 的影响，本文使用上表中的五个目标问题进行了实验。

对于 MSCOCO 数据集的每个类别，本文设计了相应的提示，并将其与不同类型的视觉输入配对，包括与问题完全不相关的视觉输入，如完全采样于高斯噪声的图像（Noise）或完全黑色或白色的图像（Zero/One），或者用纯文本替换视觉输入，其中要么删除所有视觉标记（None），要么用类似于的无意义占位符替换它们（Unk）。

▲ LLaVA-1.5-7B

如上图（a）所示，LVLMs 表现出对特定答案的偏见，比如作者询问 LVLM 关于图中并不存在的狐狸颜色的问题，结果产生自信但不切实际的答案，如棕色、灰色或蓝色。图（b）显示了在这些情况下 LVLM 输出的前 15 个选择及其对应的概率。

令人惊讶的是，即使没有可用的图像或问题涉及不存在或无意义的图像，当前的 LVLMs 往往会产生具体的答案。这表明 LVLM 存在一种实质性的偏见源自对 LLMs 的预训练。这样的偏见带来了持久的挑战，尤其是幻觉问题，构成了对 LVLMs 可靠性和适用性的显著威胁。

1.1 现象分析

作者进一步分析注意机制，以解释为什么模型严重依赖 LLM 偏见。如上图所示，LLM输出倾向于为文本标记分配更多的注意力。即使在原始图像-文本对（naive），其中图像 token 的数量超过文本 token 的数量的情况下，文本的注意力分数之和也超过了 90%。

有趣的是，当作者输入原始文本-图像对（Naive），纯文本（None）和完全嘈杂的图像（Noise）时，模型展现出相似的注意力模式。大多数注意力集中在特殊但无信息的 token 上，而不是视觉标记或文本序列，比如问题本身。

在开放式生成任务中，作者随机选择了 LLaVA-Bench 中的两个问题，并检查在生成更多标记时的注意力分数。如上图所示，随着在开放式任务中生成文本长度的增加，分配给图像的注意力相应减少，加剧了这一问题。

因此，模型越来越容易独立于输入图像生成内容，这从注意力的角度揭示了幻觉内容产生的起因。此外，结果还表明，浅层对视觉标记分配更高的注意力；然而，随着特征深入到更深的层次，对视觉标记的关注会减少。

根本原因：有几个因素导致这一现象的存在，其中模态差异 [1] 为一个关键影响因素。这种差异表现为图像-文本嵌入始终存在于不同的空间，并且距离相对较大，即使在经过大量图像-文本对训练的模型（CLIP）中也观察到这一特征。

不幸的是，LVLMs 始终在受限的视觉-语言数据集上进行训练，导致特征对齐受到削弱。相比之下，参与该过程的 LLMs 在更广泛的训练语料库中经过了训练，在基于文本的任务方面表现出了更高的熟练度。显著的模态差距使 LLMs 主要专注于熟悉的标记或表示，忽略关键的视觉标记。

此外，根据从 shallow-to-deep [2]，浅层网络可以灵活适应数据流的变化或在有限数据下更高效地学习。这解释了为什么浅层相较于深层更好地分配注意力分数。浅层可能调整得更好，但深层保留了大部分原始 LLM 模式，并倾向于忽略陌生的视觉标记。

此外，LVLMs 可能继承 LLMs 的缺点，后者经常忽略上下文信息，严重依赖其先验的参数知识 [3]，进一步降低了视觉标记的影响。这些发现强调了当前训练策略和数据集的固有局限性，强调了两种模态之间增强对齐或更高程度认识。

Model Calibration

▲ 本文提出的后处理去偏和去偏采样方法的示意图, 分别关注于调整预测结果和生成分布，从而提高模型对视觉信息的关注度，增强生成的图像描述的质量。

2.1 Post-hoc Debiasing of Prediction Results (Fig. 3 (left))

解决偏见问题：为了解决模型输出中的偏见问题，我们引入了一个“校准”步骤，通过仿射变换调整模型的输出概率：。在这个方程中，一个权重矩阵和一个偏置向量被应用于原始概率，产生调整后的概率。对于分类任务，表示与每个标签名称相关的概率，被归一化为总和为一。为了提高效率，我们将矩阵限制为对角矩阵。

学习 的直观方法：学习的直观方法是通过输入一个无意义的视觉输入（如 None 或 Noise）来初始估计 LLM 对某些答案的偏见。由此产生的输出预测被表示为。理想情况下，LLMs 应该对这个测试输入分配一个均匀的分布得分。

例如，当提出问题“图片中的狐狸颜色是棕色吗？”时，提供一个无意义的图像或没有图像应该导致对'是'和'否'的概率相等。这是因为模型无法做出决定。

然而，由于模型的偏见，它倾向于为‘是’分配更高的分数。通过将和设置为全零向量，可以纠正这个错误。随后，去偏的结果得到为。

实验结果发现：我们的实验发现，使用不相关的视觉输入（Noise、Zero、One）并不一致地提高模型性能，并对问题类型表现出敏感性。因此，作为默认的去偏方法，我们选择无图像的方法，具体而言是 None 和 Unk。

此外，我们还尝试了一种使用 Both 无图像输入的去偏方法。在这种配置中，我们将设置为 None 和 < /unk >，得到相应的概率分布和。然后，我们计算概率分布。

2.2 Visual Debias Decoding (VDD) (Fig. 3 (Right))

挑战与引入对比解码：尽管后处理去偏方法可以自然地扩展到以整个词汇表作为标签空间的开放式生成环境中，但由于标签空间庞大，其实施面临挑战。同时，保持输出文本标记的相关性或共现性至关重要，仅强制执行均匀的语言模型输出分布可能会显著损害生成质量。为此，我们采用对比解码的概念，引入 VDD 策略。

VDD 策略概述：与后处理去偏类似，我们将原始图像和文本输入到 LVLM 中，获取logits ，同时使用无图像输入获取对数，其中只包含文本先验。为了强调视觉信息的贡献，我们旨在减轻无图像 logits 突出的不良行为，并基于 LVLM 在提供图像输入时的剩余正面行为生成文本。为了实现这一概念，我们提出了对比目标：

自适应合理性约束：从纯文本模型中得到的对数并非总有害的。它们可以灵活地捕捉英语语法和常识的各个基本方面。因此，在每种情况下都对所有标记采用通用的惩罚可能不合适。为了解决这一挑战，我们引入了跨 LVLMs 输出词汇的自适应合理性约束。该约束与输出分布与原始视觉输入相关的置信水平密切相关：

在这里，是一个截断下一个标记分布的超参数。较大的表示更激进的截断，仅保留高概率标记。在生成过程中，我们将所有不在中的标记的对数设置为：

VDD 方法的优势：自适应合理性约束灵活地保留了考虑视觉信息时的高概率标记，通过利用纯文本对数减轻偏见。该约束在专家对特定标记表现出高置信度时最多保留候选池中的一个标记，有效地减轻了对比目标的影响。

重要的是，我们的 VDD 方法只需要将纯文本输入到 LVLMs 中，相对于视觉对比解码提高了效率。这避免了使用扭曲图像生成参考对数时涉及到的复杂性，该过程需要对注入到图像中的噪声水平进行精细调整。类似于后处理去偏方法，这里将这些方法表示为 VDD-None，VDD-Unk 和 VDD-Both，分别对应于使用无图像输入 None，Unk 和 Both 来获取参考对数。

Impact of Decoding Configuration on Model Performance

此外，我们发现目前的 LVLM 在各种生成配置下表现出显著的不稳定性。我们的主要假设是，现有的评估主要基于默认的解码设置，限制了对模型全面能力的探索。

如上图所示，生成配置的多样选择会导致显著不同的性能结果。值得注意的是，调整生成温度可以显著提高 POPE-MSCOCO 的平均 F1 分数，从 76 提高到约 84.04。这一提高远远超过了 13B 模型和 RLHF 调优模型以前取得的结果，表明目前对 LVLM 能力的估计可能被低估了。

此外，我们的调查发现不同的模型对不同的生成配置有偏好，突显了当前 LVLM 评估的不稳定性。这引发了对评估公平性的担忧，特别是因为它们经常依赖于默认的生成配置或有选择地选择为提出的模型选择最佳配置。

为了最大程度发挥现有 LVLMs 的潜力，我们系统地研究了四个基准测试中六个 LVLM 模型，精心搜索它们的生成配置以找到最佳设置。我们的结果在很大程度上显著优于先前报告的结果，强调了为每个模型选择最佳解码配置的重要性。

Experiments

我们进行了一系列深入的实验，以证明：（i）提出的去偏方法显著减轻了幻觉并提高了推理能力；（ii）探索最佳生成配置释放了现有 LVLMs 的全部潜力，相比默认配置取得了显著的性能提升；（iii）去偏方法纠正了模型的预测，特别是在模型缺乏信心且容易出错的情况下；（iv）我们详细检查了我们方法的失败案例，揭示了当前评估基准中的一些缺陷。

4.1 后处理去偏和去偏抽样方法对LVLM性能的影响：

我们通过结合各种去偏策略，包括后处理去偏方法和去偏抽样策略，进行了全面的分析，以研究它们对 LVLM 的真实性和推理能力的影响。我们在 MME 数据集上获得的结果如下所示。

我们的主要观察结果可以总结如下：

后处理去偏方法通过减轻幻觉显著提高了模型的真实性，其中 None 和 Unk 策略在减轻对象和属性幻觉方面表现优越，尤其是在减轻对象和属性幻觉方面；
去偏抽样策略取得了更好的平衡，VDD-None 和 VDD-Unk 在竞争性幻觉得分的同时，在推理得分上始终表现优越；
结合不同的后处理去偏策略（Both）并没有产生显著的好处，而结合去偏抽样策略则显示出有希望的结果；
后处理去偏方法独立于采样方法，如 VCD 和我们提出的去偏抽样方法。例如，结合 VCD 采样和 Unk 后处理去偏的 VCD (u) 的性能优于仅使用 VCD。值得注意的是，VCD 在 LLaVA-13B 模型上表现不佳，可能是因为它对图像噪声水平敏感。相反，我们的模型依赖于文本而不是图像，从而提高了效率和鲁棒性。其他数据集的结果参考原文。

4.2 解码策略对LVLM性能的影响

在左侧，我们通过采用不同的解码策略和设置，对 LLaVA-v1.5 模型在三个不同数据集（POPE-MSCOCO，MME 和 MMMU）上的性能进行了全面评估，包括温度 Temp }、Top- 和 Top-。其中，“Default” 列表示使用默认采样参数的基线性能，“Sampling” 列展示了通过不同解码策略获得的结果，“Overall” 列突显了在所有子集上通过所有采样策略实现的最佳性能。

值得注意的是，应用最佳采样策略极大地提高了整体模型性能，相较于默认配置有显著改进。为了强调这一现象超越 LLaVA 模型的普适性，我们扩展了对 POPE-MSCOCO 基准中 Qwen-VL 和 InstructBLIP 的评估。

结果一致表明，通过精细调整的采样策略可以提高现有 LVLM 的性能。在右侧，我们强调了我们提出的方法在与替代策略的比较中的卓越性能，标为 “Ours”。我们的方法在特定指导数据集上超过了微调模型，突显了我们精细调整的采样策略的有效性。此外，采用这些精细调整的采样策略的 7B 模型在不同的微调策略下（包括监督微调和 RLHF）胜过了 13B 模型。

总体性能

我们首先确定了所有骨干网络的最佳采样配置。随后，我们应用去偏采样方法。同时，对于分类任务，我们同时使用 None 和 Unk 输入实施我们的后处理去偏方法。如上图所示，很明显 VCD 未能在所有基线模型中一致提高性能，特别是在推理任务中。相比之下，我们提出的方法在所有方面和骨干模型上都展示出卓越的结果。

最后，我们在 LLava-Bench 上评估了所提出的方法，对于开放式生成任务，VCD在一致超越默认解码配置方面并不成功，尽管它偶尔在复杂子集中表现优异。

相反，我们提出的 VDD 在改善默认解码策略方面一直表现出色。VDD 部分的右侧列说明了，对于生成任务，模型性能一直受到各种解码配置的影响。与偏爱低温度 () 的多选 QA 任务不同，我们观察到生成任务受益于较高的或更大的值。详细结果和更大骨干网络参照原文。

原文也有很多定性实验，总的来说，VDD 生成的结果更有帮助且幻觉较少。

5.1 校准在模型预测缺乏信心时特别有优势

▲ 比较不同置信区间下后处理去偏方法的有效性：

上图，我们分析了各种后处理去偏方法。很明显，在模型展现低信心的情况下，“Naive” 方法在性能上表现不佳，这符合直觉。

相反，我们提出的后处理去偏方法在这些情况下取得了显著的性能提升。随着预测置信度的提高，模型的预测变得更加可靠和准确，导致性能增益减小。即使在高置信度水平（约为 0.9-1.0）下，我们提出的方法也能够取得可比较的结果而没有不利影响。因此，我们提出的方法的总体性能超过了 Naive 方法。

值得注意的是，两种基于图像的去偏方法在低置信度得分的情况下表现出色，表明对预测结果进行了激进的调整。然而，这种激进的调整可能导致对高置信度样本的较差预测。因此，我们默认使用基于文本的去偏方法，因为它们始终能够带来改进。

5.2 目前某些benchmark存在的问题

如上图所示，我们揭示了去偏方法与受到 LLM（大型语言模型）偏倚影响的基准之间错综复杂的相互作用，其中 Naive 方法的性能主要围绕文本信息。我们提出的后处理去偏方法在 MMMU 基准上表现出不一致的改进。

经过仔细检查，当我们通过将输入图像替换为空字符串（None）或标识符（Unk）来完全删除视觉信息时，模型在特定子集中保持相当或更优越的性能。

在这些情况下，我们设计用于缓解 LVLM 偏倚的后处理方法未能产生最佳结果。特别是在纯粹的 LLMs 表现卓越的情况下，应用后处理方法可能会产生不利影响。重要的是要强调，为 LVLMs 定制的基准应优先依赖输入图像，而不仅仅是文本内容。

因此，我们的方法可以作为有价值的指标；当所提出的去偏方法表现不佳时，这表明基准可能更偏向 LLMs，可能不适合有效评估 LVLMs。在这种情况下，所提出的采样方法，VDD，与 Naive 相比也表现出劣势，平均准确率为对比。

结论与展望

我们进行了对 LVLMs（大型视觉语言模型）的偏倚和挑战进行了全面的探索，特别关注它们与底层 LLMs（大型语言模型）的相互作用。我们的调查揭示了 LVLM 生成内容中明显的偏倚，主要受到 LLMs 植根于语言先验而非视觉输入的影响。

为了解决这些偏倚，我们引入了去偏策略，包括后处理去偏方法和去偏采样技术。我们的实验证明了这些策略在减轻幻觉和提高 LVLM 的推理能力方面的有效性。后处理去偏方法，如 None 和 Unk，显著提高了模型的真实性，特别是当模型对其预测缺乏信心时。

此外，去偏采样策略，标记为 VDD，通过在幻觉评分上表现出竞争力的同时在推理任务中持续优于其他方法，实现了平衡。提出的策略有助于提高 LVLMs 的可靠性和适用性，解决与语言先验相关的偏倚。

此外，我们对解码配置对 LVLM 性能的影响进行的探讨揭示了通过优化采样策略实现的实质性改进。优化的解码配置释放了现有 LVLMs 的全部潜力，超越了默认配置，并引发对现有评估公平性的担忧。随着该领域的发展，解决偏倚并完善评估方法对于在现实应用中充分发挥 LVLMs 的潜力至关重要。局限性和未来工作详见附录。

参考文献

[1] Liang, Victor Weixin, et al. "Mind the gap: Understanding the modality gap in multi-modal contrastive representation learning." Advances in Neural Information Processing Systems 35 (2022): 17612-17625.

[2] Phuong, Mary, and Christoph H. Lampert. "Distillation-based training for multi-exit architectures." Proceedings of the IEEE/CVF international conference on computer vision. 2019.

[3] Chen, Hung-Ting, Michael JQ Zhang, and Eunsol Choi. "Rich knowledge sources bring complex knowledge conflicts: Recalibrating models to reflect conflicting evidence." arXiv preprint arXiv:2210.13701 (2022).

更多阅读