ACM MM 2024 | 突破传统方法局限！用语义正确性评估视觉问答生成结果

5月前

©PaperWeekly 原创 · 作者 | 季慧山

单位 | 中科院信工所博士生

研究方向 | 计算机视觉

第 32 届 ACM 国际多媒体会议（ACM Multimedia 2024）预计于 10 月 28 日至 11 月 1 日在澳大利亚墨尔本举行。本届会议共收到 4385 篇有效投稿，其中 1149 篇被录用，录用率为 26.20%。而在这 1149 篇录用的投稿中，仅有 174 篇被进一步评选为 Oral，Oral 接受率为 3.97%。本文将要介绍的是 Oral Presentation 中的一篇优选论文。

论文标题：

Towards Flexible Evaluation for Generative Visual Question Answering

中文标题：

针对视觉问答生成结果的灵活评估

论文作者：

Huishan Ji, Qingyi Si, Zheng Lin, Weiping Wang

项目地址：

https://github.com/jihuishan/flexible_evaluation_for_vqa_mm24

论文地址：

http://arxiv.org/abs/2408.00300

研究背景

随着多模态大语言模型（MLLM）的快速发展，如何公平准确地评估这些模型的多模态理解能力成为了一个关键问题。视觉问答（VQA）作为一个成熟的测试领域，在评估模型的视觉理解和语言生成能力方面发挥着重要作用。

然而，现有的 VQA 评估方法存在局限性，尤其是严格的“完全匹配”评估策略（只有当模型生成结果与数据集标注完全相同时才能得分）限制了 MLLM 展示其真实的多模态理解和文本生成能力，抑制了丰富的回答生成。

传统的 VQA 评估将问题处理为一个分类问题，而答案往往局限于预定义的类别中，这与 MLLM 生成多样化回答的趋势不符。这种评估方法不仅难以评估 MLLM 的多样化生成能力，而且在面对零样本测试时更是困难重重。因此，当前的 VQA 评估标准亟需改进，以便能够更好地对 MLLM 生成的多样化回答进行公平的评估。

基于此，本文提出了基于语义相似度的评估方法，用于评估 VQA 数据集上的开放式生成回答。这种评估方法旨在弥补现有方法的不足，使得评估标准能够更好地对齐于人类的判断，同时能够容纳多种回答形式，并确保即使在回答形态上存在差异时，评估结果仍然具有一致性。

研究动机

本文的目的在于突破传统评估方法的局限，提出一种基于语义相似度的灵活评估方法（打分器），能够更准确、公平地衡量 MLLMs 生成的多样化回答。通过引入更符合人类判断的评估标准，本文旨在推动 VQA 领域评估标准的进步，从而促进 MLLMs 在多模态理解和生成能力上的进一步发展。

研究思路

4.1 任务特点

首先，现有的语义相似度任务（如 STS 系列任务，Semantic Textual Similarity）与 VQA 生成结果评估任务之间有着显著的不同。

判别粒度：STS 任务更关注文本的整体意义，而 VQA 生成结果评估则要求更细粒度的语义判别。在 VQA 生成结果评估任务中，打分器需要将回答和标准答案在给定问题下进行相似度比较。而由于问题相同，两者之间有大量的语义重叠，需要进行细粒度的相似度判别。
形态差异：STS 任务中的文本通常较长，而 VQA 的标准答案往往非常简短（例如一个单词或短语），且多模态大模型在回答时的生成内容常常是一个完整的句子。这种长度上的差异使得基于 n-gram 的评估方法（如 BLEU）在处理 VQA 任务时容易受到回答长度和上下文的影响，而模型在面对较大的长度差异（一个词 vs 一整个句子）时可能表现不佳。
分布偏移：STS 任务中的文本来自通用领域，而 VQA 数据集往往针对特定的子任务，如知识性问题或推理性问题。因此，不同 VQA 数据集之间存在显著的分布差异，这种分布上的偏移使得评估模型在不同数据集上的表现不一致。

因此，综合考虑以上因素，本文在参考了先前语义相似度数据集和方法的基础上，提出了全新的评估数据集和方法。

4.2 新数据集

为了衡量不同的打分器在评估生成结果时的优劣（和人类评估的接近程度）并尽可能真实地模拟人类在对 VQA 生成结果进行评分时的场景，本文还使用数据增强结合人工标注的方式，提供了一个评估不同打分器的数据集（AVE， Assessing VQA Evaluators），构造过程如图 2 所示。

构造数据集时，首先收集多个多模态大模型在多个 VQA 数据集上的原始回答，随后使用人工对每个答案的正确性进行评分。接着对回答进行数据增强。增强方法包括使用 chatgpt 将其改写为一整个句子，和使用 wordnet 对单个词或短语进行近义词或同义词的替换，并使用 chatgpt 引入一个形态的转变（如从单数变为复数，动词加上时态等）。最后使用人工对生成的增强数据进行清洗，确保每个增强的数据都不改变原始回答的含义。

▲ 图2. 新数据集（AVE）构建过程。不同的 part 指不同的数据增强方法。

另一方面，为了能衡量不同的打分器模型在该数据集上的表现，本文设计了三种量化指标：Alignment，Consistency 和 Generalization。其中，Alignment 指的是和人类的打分趋势有多接近。

比如，在 10 分制下，人类对 4 个样本的打分为 2，4，6，8，而模型如果能在 5 分制下打分为 1，2，3，4，则认为 Alignment 为 1。Alignment 使用 spearman 系数来计算两个序列之间的相关性。Consistency 指的是不同长度但含义相同的答案的评分有多接近，使用方差来评估。Generalization 指的是对基于不同 VQA 数据集生成的答案的评估效果有多接近，使用它们的方差作为指标。

4.3 方法

经过测试发现，现有的衡量语义相似度的方法在该数据集上表现较差，尤其是在 Part 2 和 3 上的 alignment，以及整体的 consistency 指标较差。即，除了整体和人类评估的差异较大之外，模型不能很好地衡量不同长度和不同形式（但表达相同含义）的回答。

因此，本文针对该任务场景，采用常用的对比学习损失，设计了多种预训练任务，旨在帮助模型增强对细粒度差异的辨别能力，同时更为一致地评估不同长度和形式的回答，来构造本文提出的 SFVE（Semantically Flexible VQA Evaluator）。

采用的预训练任务包括：

1. 沿用常用的对比学习方法中使用的 NLI 数据集（MNLI 和 SNLI）来保证基本的语义相似度区分能力；

2. 利用多个已有的带有多个备选答案 VQA 数据集的训练集，将不同的备选答案互相作为正样本，将同一个问题的正确答案和随机答案作为负样本；

3. 将多个 VQA 数据集的训练集的短答案通过 wordnet 替换为近义词后使用 chatgpt 改变时态，作为正样本，随机答案作为负样本；

4. 使用 chatgpt 将标准答案和问题整合到一个陈述句中，从而形成一个完整的句子作为回答，并作为正样本，负样本为随机答案和问题进行整合的结果。

如图 3 所示，在训练时，通过对比学习，增强模型对细粒度差异的区分能力，并对齐不同长度和形式的回答。使用的对比学习损失如下：

其中，sim(x,y) 指的是向量 x 和 y 之间的 cosine 距离。

实验结果

▲ 图4. 主实验结果。其中，SFVE-base 和 large 分别基于 RoBERTa-base 和 large 经由预训练任务训练得到。SFVE-LLaMA2-7b 来自 LLaMA2-7b，使用 prompt“summarize the text Question:{Q} Answer:{A} in a single word:”后提取第一个生成词的隐空间向量作为特征计算 cosine 相似度。

如图 4 所示，本文所提出的方法相较于其他 baseline 而言大幅提高了和人类打分的对齐性，同时保证了较高的 consistency 和 generalization。对于 LLM 和 API 中的 ChatGPT，本文在测试时，要求其在给定问题下，评估标准答案和给定回答的相似度得分。

API 中的后两个模型为嵌入模型（即对一个输入提取其嵌入向量），本文采用和前文中 encoder 相同的做法，对嵌入后的向量计算 cosine 相似度作为得分。可以发现，在 125M 的 RoBERTa-base 和 355M 的 RoBERTa-large 的基础上，本文提出的 SFVE 方法显著超过了所有其他 baseline，包括 7b 的 LLM、ChatGPT 和顶尖的嵌入模型。

值得注意的是，尽管公式化的方法，如 BLEU 和 ROUGE，它们和人类打分的对齐性极差，但是它们的 generalization 也就是在不同来源的数据上却取得了极高的泛化性。文中认为，这是由于该指标一方面是公式化的指标，与实际词汇分布关联较小；另一方面，由于这些公式化的指标完全不能进行该任务，因此其对不同来源的数据一视同仁，接近随机猜测，因此泛化性极高。

从图 5 中的消融实验可以发现，文中设计的预训练任务或多或少地都对最终的结果有一定的贡献。其中，移除 Synonym and Antonym（即不适用 wordnet 来定义近义词，并且不使用 ChatGPT 来将单个词进行变形）后，会导致性能的大幅下降，说明模型原本对不同形式的单个词的理解有较大差异，与人类的认知没有对齐。

同时，移除 generated descriptions 之后，尽管在 Part 1 和 3 上都有下降，但在 Part 2 上下降最多（Part 2 对应不同长度但含义相同的回答），说明模型原本对不同长度的答案并不能很好地处理，需要专门地对齐训练。

总结

本文提出了一项实用任务，即利用语义正确性来评估开放式 VQA（视觉问答）回答，从而促进对多模态大模型（MLLMs）多模态理解能力的评估。我们提出了评估 VQA 评估器的三个关键属性，即alignment、consistency 和 generalization。

此外，本文提出了一个新的数据集（AVE），用于评估不同的打分器的表现。基于对比学习和精心设计的预训练任务，本文还提供了一个语义灵活的 VQA 评估器（SFVE），在 VQA 评估中表现显著优于现有评估器，并且其训练方案相对通用，在 encoder-only 和 decoder-only 结构下都有良好的表现。

关于作者

本文作者来自中国科学院信息工程研究所和中国科学院大学。作者列表：季慧山、佀庆一、林政和王伟平。其中，第一作者季慧山是中国科学院信息工程研究所博士生（https://github.com/jihuishan），通讯作者为中国科学院信息工程研究所研究员、博士生导师林政（主页：https://people.ucas.ac.cn/~linzheng）。

更多阅读