今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准
作者 | 墨墨
2023年9月,OpenAI发布了多模态大模型GPT-4V,开启了多模态研究热潮。短短8个月时间内,闭源模型如Gemini系列, Qwen-VL-Max,开源模型如Mini-Gemini, LLaVA-NeXT百花齐放。
然而,在多模态大模型领域,闭源和开源模型依然存在着明显的鸿沟。
开源模型能否在性能上和闭源模型并肩?
又要如何才能做到这一点?
来自上海人工智能实验室、商汤科技研究院、清华大学等的研究者们发布了他们的答案——开源多模态大模型InternVL 1.5。
在18项主流基准中,InternVL 1.5在其中8项中达到sota!实验结果表明,InternVL 1.5已经有了与领先的闭源模型相媲美的水准。
论文标题:How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
论文链接:https://arxiv.org/pdf/2404.16821
模型演示:https://internvl.opengvlab.com/
为什么闭源和开源多模态大模型会存在差距?
研究者们首先对目前开源与闭源(专有商用)的多模态大模型(MLLM)展开了调研。他们发现,两者的差距主要体现在三个方面:
(1)图像分辨率:专有商用模型通常采用动态分辨率方法,保留原始纵横比,以方便详细的场景和文档理解。相比之下,开源模型通常以固定分辨率进行训练,如336×336 和 448×448,导致能力相对于商用同行有相当大的差距。
(2)参数规模:近期专有商用的MLLM通常规模不少于 1000 亿参数,而开源模型通常采用 3 亿参数的视觉基础模型 (VFM),该模型与 70 亿或 130 亿个 LLM 集成。
(3)多语言能力:专有商用模型通常利用广泛的多语言数据集进行训练,从而提高其在不同语言上的性能。然而,开源模型主要利用英语数据,依赖于其他语言的LLM的零样本(Zero-shot)能力,例如 LLaVA-NeXT。这会导致其在非英语场景理解和 OCR 任务中的性能不佳。
为了弥补这些差距,针对上述三个问题,InternVL 1.5集成了三项重大改进,增强了模型的性能和可用性,如下图所示。
(1)动态高分辨率:我们采用动态高分辨率策略,将图像分割成 448×448 的图块,根据图像的长宽比和分辨率,图块数量从 1 到 40(即 4K 分辨率)不等。为了捕获全局上下文,我们还添加了缩略图视图。
(2)强视觉编码器:我们为大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略,提高了其视觉理解能力,并使其可以在不同的LLM中迁移和重用。另外,使用 InternLM2-20B 作为语言基础模型,提供强大的初始语言处理能力。
(3)高质量的双语数据集:我们精心收集了高质量的双语数据集,涵盖常见场景、文档图像,并用英文和中文问答对对其进行标注,显着提高了 OCR 和中文相关任务的性能。
模型细节
下面我们将对上述三项改进做简单的展开。
整体架构
首先是整体架构方面,InternVL 1.5采用与流行的MLLM类似的ViT-MLP-LLM架构,通过 MLP 结合预先训练的 InternViT-6B 与 InternLM2-20B。在这里,我们采用简单的 Pixel Shuffle 将 visual tokens 的数量减少到四分之一。
动态高分辨率
我们采用动态高分辨率训练方法,可以有效地适应输入图像的不同分辨率和长宽比。该方法利用将图像分割成图块的灵活性,增强模型处理详细视觉信息的能力,同时适应不同的图像分辨率。
该方法主要由两个步骤组成:
(1)动态纵横比匹配。如下图所示,为了在处理过程中保持自然的宽高比,我们从一组预定义的宽高比(共35种)中动态匹配最佳的宽高比。由于计算资源有限,我们在训练期间最多允许 12 个图块。
(2)图像分割和缩略图。一旦确定了适当的宽高比,图像的大小就会调整为相应的分辨率。例如,800×1300 图像将调整为 896×1344。然后将调整大小的图像分为 448×448 的图块。除了图块之外,我们还包含整个图像的缩略图以捕获全局上下文,该缩略图缩小至 448×448。因此,在训练过程中,visual tokens的数量范围为 256 到 3,328。在测试过程中,图块数量最多可以增加到 40 个,从而产生 10,496 个visual tokens。
强视觉编码器
在选择更强的视觉编码器方面,我们对 InternViT-6B 模型进行了持续预训练。
我们发现倒数第四层的特征对于多模态任务表现最好,因此我们直接丢弃最后三层的权重,将 InternViT-6B 从48层减少到45层。然后,我们将 InternViT-6B 的分辨率从224提高到448,并将其与 Nous-Hermes-2-Yi-34B 集成。利用 图像字幕组合 和 OCR 数据集,模型的视觉编码器和 MLP 都被激活进行训练。
基于上述过程,我们得到了新的模型 InternViT-6B-448px-V1.2。
InternVL 1.5 的训练基于 InternViT-6B-448px-V1.2 进行。在本次更新中,训练图像的分辨率从固定的 448×448 扩展到动态 448×448,其中基本图块尺寸为 448×448,图块数量从1到12。此外,我们增强了预训练数据集的数据规模、质量和多样性,从而使我们的1.5版本具有强大的鲁棒性、OCR能力和高分辨率处理能力。
值得注意的是,尽管 InternVL 1.5 中的 LLM 从 Nous-Hermes-2-Yi-34B 更改为InternLM2-20B,InternViT 与新的 LLM 保持了良好的兼容性和可移植性。这表明 InternViT-6B 在 MLLM 预训练阶段学到的视觉特征具有广泛的适用性,并且与特定的 LLM 没有紧密联系。
高质量的双语数据集
数据集方面,我们列举了自己在预训练和微调阶段选择的数据集。预训练阶段,主要关注各种可公开访问的数据源。在微调阶段,则通过精心选择的数据集,增强了模型在各种多模态任务中的性能。
同时,为了增强模型的多语言能力,我们实现了数据翻译pipeline,利用最先进的开源LLM或GPT-3.5 将英文数据集转换为另一种语言(例如中文),保持双语标注的一致性和准确性。在下表中,用括号注释了数据集所使用的语言。
模型性能评测
最后,我们对 InternVL 1.5 进行了全方位的评测,以评估我们模型的多模态理解和推理能力。
我们研究中使用的基准分为四种不同的类型:OCR 相关基准、通用多模态基准、数学基准和多轮对话基准。如下表所示,与开源和专有商业模型相比,InternVL 1.5 显示出具有竞争力的性能,在 18 个多模态基准测试中的 8 个中取得了sota的结果。
其中,InternVL 1.5 在OCR相关基准、数学领域和其他通用多模态基准中,表现远超其他开源模型,与商用模型性能相当;并展现出强大的中文能力。
但在多轮对话领域,尽管 InternVL 在开源模型中依然领先,仍落后于 GPT-4V。展望未来,我们将继续完善 InternVL 在多轮对话中的功能。
总结
通过对传统开源多模态大模型的全方位升级,InternVL 1.5 迈出了具有建设性的一步。
更高的分辨率、更强的视觉编码器、更高质量的数据集,使 InternVL 1.5 得以在 18 个多模态基准测试中的 8 个中取得了sota的结果,具备了与闭源商用多模态大模型相当的性能。
我们非常期待开源多模态大模型能够取得更高的成就,让通用人工智能领域的普及更进一步!
微信扫码关注该文公众号作者