准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源
新智元报道
新智元报道
【新智元导读】马里兰大学联合北卡教堂山发布首个专为多模态大语言模型(MLLM)设计的图像序列的基准测试Mementos,涵盖了真实世界图像序列、机器人图像序列,以及动漫图像序列,用4761个多样化图像序列的集合,全面测试MLLM对碎散图像序列的推理能力!
论文链接:https://arxiv.org/abs/2401.10529
作者对当前多模态大型语言模型在处理图像序列推理时失败的原因的分析,主要识别了三个错误原因:
1. 对象与行为幻觉之间的相互作用
研究假设,错误的对象识别会导致随后的行为识别不准确。量化分析和案例研究表明,对象幻觉会在一定程度上导致行为幻觉。例如,当MLLM错误地将场景识别为网球场后,可能会描述人物正在打网球,即使这种行为在图像序列中并不存在。
2. 共现对行为幻觉的影响
MLLM倾向于生成在图像序列推理中常见的行为组合,这加剧了行为幻觉的问题。例如,在处理机器人领域的图像时,MLLM可能错误地描述一个机器人手臂在“抓取把手”之后拉开抽屉,即使实际行为是“抓取抽屉的侧面”。
3. 行为幻觉的雪球效应
随着图像序列的进行,错误可能会逐渐累积或加剧,这称为雪球效应。在图像序列推理中,如果早期出现错误,这些错误可能会在序列中积累和放大,导致对象和行为识别的准确性下降。
举个例子
从上图可知,MLLM失败原因包括对象幻觉以及对象幻觉与行为幻觉之间的相关性,以及共现行为。
例如,在出现「网球场」的对象幻觉后,MLLM随后展现出「拿着网球拍」的行为幻觉(对象幻觉与行为幻觉之间的相关性)以及「似乎在打网球」的共现行为。
观察上图中的样本,可以发现MLLM错误地认为椅子再往后仰并且认为椅子碎掉了。
这一现象揭示了MLLM对于图像序列中的静止的对象,它也会产生这个对象发生了某些动作的幻觉。
在上图关于机械臂的图像序列展示中,机械臂伸到了把手旁边,MLLM就错误地认为机械臂抓住了把手,证明了MLLM会生成在图像序列推理中常见的行为组合,从而产生幻觉。
在上图的案例中,老夫子并没有牵着狗,MLLM错误地认为遛狗就要牵着狗,并且「狗的撑杆跳」被识别成了「创造了喷泉」。
大量的错误反映了MLLM对于漫画领域的不熟悉,在二次元动漫领域,MLLM可能需要大幅度的优化和预训练.
在附录中,作者通过详细展示了各主要类别中的失败案例,并进行了深入的分析。
总结
近年来,多模态大型语言模型在处理各种视觉-语言任务上展现出了卓越的能力。
这些模型,如GPT-4V和Gemini,能够理解和生成与图像相关的文本,极大地推动了人工智能技术的发展。
然而,现有的MLLM基准测试主要集中于基于单张静态图像的推理,而对于从图像序列中推断,这对于理解我们不断变化的世界至关重要,的能力研究相对较少。
为了解决这一挑战,研究人员提出了一种新的基准测试「Mementos」,目的是评估MLLMs在序列图像推理方面的能力。
Mementos包含了4761个不同长度的多样化图像序列。此外,研究团队还采用了GPT-4辅助方法来评估MLLM的推理性能。
通过对九个最新的MLLMs(包括GPT-4V和Gemini)在Mementos上的仔细评估,研究发现这些模型在准确描述给定图像序列的动态信息方面存在挑战,常常导致对象及其行为的幻觉/误表达。
量化分析和案例研究识别出三个关键因素影响MLLMs的序列图像推理:
1. 对象和行为幻觉之间的相关性;
2. 共现行为的影响;
3. 行为幻觉的累积影响。
这一发现对于理解和提升MLLMs在处理动态视觉信息方面的能力具有重要意义。Mementos基准不仅揭示了当前MLLMs的局限性,也为未来的研究和改进提供了方向。
随着人工智能技术的快速发展,MLLMs在多模态理解领域的应用将变得更加广泛和深入。Mementos基准测试的引入,不仅推动了这一领域的研究,也为我们提供了新的视角,去理解和改进这些先进的AI系统如何处理和理解我们复杂多变的世界。
微信扫码关注该文公众号作者