Bendi新闻
>
今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准

今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准

7月前
 夕小瑶科技说 原创
 作者 | 墨墨

2023年9月,OpenAI发布了多模态大模型GPT-4V,开启了多模态研究热潮。短短8个月时间内,闭源模型如Gemini系列, Qwen-VL-Max,开源模型如Mini-Gemini, LLaVA-NeXT百花齐放。

然而,在多模态大模型领域,闭源和开源模型依然存在着明显的鸿沟。

开源模型能否在性能上和闭源模型并肩?

又要如何才能做到这一点?

来自上海人工智能实验室、商汤科技研究院、清华大学等的研究者们发布了他们的答案——开源多模态大模型InternVL 1.5。

在18项主流基准中,InternVL 1.5在其中8项中达到sota!实验结果表明,InternVL 1.5已经有了与领先的闭源模型相媲美的水准。

论文标题:How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

论文链接:https://arxiv.org/pdf/2404.16821

模型演示:https://internvl.opengvlab.com/

为什么闭源和开源多模态大模型会存在差距?

研究者们首先对目前开源与闭源(专有商用)的多模态大模型(MLLM)展开了调研。他们发现,两者的差距主要体现在三个方面:

(1)图像分辨率:专有商用模型通常采用动态分辨率方法,保留原始纵横比,以方便详细的场景和文档理解。相比之下,开源模型通常以固定分辨率进行训练,如336×336 和 448×448,导致能力相对于商用同行有相当大的差距。

(2)参数规模:近期专有商用的MLLM通常规模不少于 1000 亿参数,而开源模型通常采用 3 亿参数的视觉基础模型 (VFM),该模型与 70 亿或 130 亿个 LLM 集成。

(3)多语言能力:专有商用模型通常利用广泛的多语言数据集进行训练,从而提高其在不同语言上的性能。然而,开源模型主要利用英语数据,依赖于其他语言的LLM的零样本(Zero-shot)能力,例如 LLaVA-NeXT。这会导致其在非英语场景理解和 OCR 任务中的性能不佳。

为了弥补这些差距,针对上述三个问题,InternVL 1.5集成了三项重大改进,增强了模型的性能和可用性,如下图所示。

(1)动态高分辨率:我们采用动态高分辨率策略,将图像分割成 448×448 的图块,根据图像的长宽比和分辨率,图块数量从 1 到 40(即 4K 分辨率)不等。为了捕获全局上下文,我们还添加了缩略图视图。

(2)强视觉编码器:我们为大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略,提高了其视觉理解能力,并使其可以在不同的LLM中迁移和重用。另外,使用 InternLM2-20B 作为语言基础模型,提供强大的初始语言处理能力。

(3)高质量的双语数据集:我们精心收集了高质量的双语数据集,涵盖常见场景、文档图像,并用英文和中文问答对对其进行标注,显着提高了 OCR 和中文相关任务的性能。

模型细节

下面我们将对上述三项改进做简单的展开。

整体架构

首先是整体架构方面,InternVL 1.5采用与流行的MLLM类似的ViT-MLP-LLM架构,通过 MLP 结合预先训练的 InternViT-6B 与 InternLM2-20B。在这里,我们采用简单的 Pixel Shuffle 将 visual tokens 的数量减少到四分之一。

动态高分辨率

我们采用动态高分辨率训练方法,可以有效地适应输入图像的不同分辨率和长宽比。该方法利用将图像分割成图块的灵活性,增强模型处理详细视觉信息的能力,同时适应不同的图像分辨率。

该方法主要由两个步骤组成:

(1)动态纵横比匹配。如下图所示,为了在处理过程中保持自然的宽高比,我们从一组预定义的宽高比(共35种)中动态匹配最佳的宽高比。由于计算资源有限,我们在训练期间最多允许 12 个图块。

(2)图像分割和缩略图。一旦确定了适当的宽高比,图像的大小就会调整为相应的分辨率。例如,800×1300 图像将调整为 896×1344。然后将调整大小的图像分为 448×448 的图块。除了图块之外,我们还包含整个图像的缩略图以捕获全局上下文,该缩略图缩小至 448×448。因此,在训练过程中,visual tokens的数量范围为 256 到 3,328。在测试过程中,图块数量最多可以增加到 40 个,从而产生 10,496 个visual tokens。

强视觉编码器

在选择更强的视觉编码器方面,我们对 InternViT-6B 模型进行了持续预训练。

我们发现倒数第四层的特征对于多模态任务表现最好,因此我们直接丢弃最后三层的权重,将 InternViT-6B 从48层减少到45层。然后,我们将 InternViT-6B 的分辨率从224提高到448,并将其与 Nous-Hermes-2-Yi-34B 集成。利用 图像字幕组合 和 OCR 数据集,模型的视觉编码器和 MLP 都被激活进行训练。

基于上述过程,我们得到了新的模型 InternViT-6B-448px-V1.2

InternVL 1.5 的训练基于 InternViT-6B-448px-V1.2 进行。在本次更新中,训练图像的分辨率从固定的 448×448 扩展到动态 448×448,其中基本图块尺寸为 448×448,图块数量从1到12。此外,我们增强了预训练数据集的数据规模、质量和多样性,从而使我们的1.5版本具有强大的鲁棒性、OCR能力和高分辨率处理能力。

值得注意的是,尽管 InternVL 1.5 中的 LLM 从 Nous-Hermes-2-Yi-34B 更改为InternLM2-20B,InternViT 与新的 LLM 保持了良好的兼容性和可移植性。这表明 InternViT-6B 在 MLLM 预训练阶段学到的视觉特征具有广泛的适用性,并且与特定的 LLM 没有紧密联系。

高质量的双语数据集

数据集方面,我们列举了自己在预训练和微调阶段选择的数据集。预训练阶段,主要关注各种可公开访问的数据源。在微调阶段,则通过精心选择的数据集,增强了模型在各种多模态任务中的性能。

同时,为了增强模型的多语言能力,我们实现了数据翻译pipeline,利用最先进的开源LLM或GPT-3.5 将英文数据集转换为另一种语言(例如中文),保持双语标注的一致性和准确性。在下表中,用括号注释了数据集所使用的语言。

模型性能评测

最后,我们对 InternVL 1.5 进行了全方位的评测,以评估我们模型的多模态理解和推理能力。

我们研究中使用的基准分为四种不同的类型:OCR 相关基准、通用多模态基准、数学基准和多轮对话基准。如下表所示,与开源和专有商业模型相比,InternVL 1.5 显示出具有竞争力的性能,在 18 个多模态基准测试中的 8 个中取得了sota的结果。

其中,InternVL 1.5 在OCR相关基准、数学领域和其他通用多模态基准中,表现远超其他开源模型,与商用模型性能相当;并展现出强大的中文能力。

但在多轮对话领域,尽管 InternVL 在开源模型中依然领先,仍落后于 GPT-4V。展望未来,我们将继续完善 InternVL 在多轮对话中的功能。

总结

通过对传统开源多模态大模型的全方位升级,InternVL 1.5 迈出了具有建设性的一步。

更高的分辨率、更强的视觉编码器、更高质量的数据集,使 InternVL 1.5 得以在 18 个多模态基准测试中的 8 个中取得了sota的结果,具备了与闭源商用多模态大模型相当的性能。

我们非常期待开源多模态大模型能够取得更高的成就,让通用人工智能领域的普及更进一步!


微信扫码关注该文公众号作者

来源:夕小瑶科技说

相关新闻

今日arXiv最热大模型论文:上海AI lab发布MathBench,GPT-4o的数学能力有多强?今日arXiv最热NLP大模型论文:超越GPT-4,清华发布网页导航智能体AutoWebGLM今日arXiv最热大模型论文:COLING 2024: 复旦发布AoR,层级聚合推理突破大模型复杂推理上限今日arXiv最热大模型论文:图灵测试中,GPT-4仍不及人类!今日arXiv最热大模型论文:北大发布4维时空数据预训练,助力自动驾驶今日arXiv最热NLP大模型论文:GPT-4理解武林外传中的含蓄表述,达人类水平今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力今日arXiv最热NLP大模型论文:斯坦福发布法律指令数据集LawInstruct,统一17个辖区24种语言今日arXiv最热NLP大模型论文:Github万星!北航发布零代码大模型微调平台LlamaFactory今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMath今日arXiv最热NLP大模型论文:COLING2024发布数据集揭示从莎士比亚时期开始的性别偏见今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent今日arXiv最热大模型论文:北京大学最新综述:视觉大模型中的漏洞与攻防对抗今日arXiv最热大模型论文:浙江大学:如何减轻视觉大模型中的幻觉问题今日arXiv最热大模型论文:何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏见今日arXiv最热大模型论文:大模型对齐告别微调,直接编辑表征空间即可解决今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理今日arXiv最热大模型论文:忘记"也是一门学问:机器如何忘记自己学到的知识?今日arXiv最热大模型论文:LoRA又有新用途,学得少忘得也少,成持续学习关键!今日arXiv最热大模型论文:AI"参审",论文评审迎来"神助攻"?今日arXiv最热大模型论文:Agent也疯狂!FoA方法对智能体做树结构搜索,超越ToT今日arXiv最热大模型论文:减少语法错误,竟成了突破口!识别AI生成文本,AUROC达98.7%
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。