跟着开源的InternVL，学习如何做自己的GPT-4V

8月前

随着人工智能生成内容（AIGC）的快速发展，多模态大型语言模型（MLLM）在理解和生成结合视觉与语言的信息方面展现出巨大潜力。然而，现有的开源MLLM与商业模型之间存在性能差距。为了应对这一挑战，书生图像大模型InternVL 1.0模型作为早期的开源尝试，通过将视觉基础模型扩展到6亿参数，并与大型语言模型进行对齐，为缩小这一差距奠定了基础。

在1.0模型的基础上，InternVL 1.5引入了三项创新设计，进一步提升了模型的性能：

1.强大的视觉编码器：通过连续学习策略，InternViT-6B模型的视觉理解能力得到了显著提升，使其能够在不同的大型语言模型中进行迁移和重用。

2.动态高分辨率：InternVL 1.5能够根据输入图像的宽高比和分辨率，将图像动态划分为不同数量的448×448图像块，最高支持4K分辨率的输入，这为处理高分辨率图像提供了更高的灵活性和效率。

3.高质量双语数据集：研究团队精心构建了一个覆盖常见场景和文档图像的高质量双语数据集，并用英语和中文进行了问答对标注，显著增强了模型在OCR和中文相关任务中的性能。这些创新使得InternVL 1.5在多模态任务中的性能得到了显著提升，有效地缩小了开源模型与商业模型之间的性能差距。

为了更好的帮助大家了解这项工作，机器之心最新一期线上分享将带来最新的书生图像大模型InternVL系列模型的全面介绍。

分享主题：我们离GPT-4V还有多远？通过开源套件缩小与商用多模态模型之间的差距

嘉宾介绍：

王文海：南京大学博士，香港中文大学博士后。研究方向为视觉基础模型研究，上海人工智能实验室“书生”系列视觉基础模型核心开发者。主要成果发表在顶级期刊和会议TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等共43篇论文，其中19篇为一作/共一/通信。研究成果获得了总共超1.6万次引用，单篇最高引用超3000次。研究成果分别入选CVPR 2023最佳论文，世界人工智能大会青年优秀论文奖，CVMJ 2022最佳论文提名奖，两次入选ESI高被引论文（前1%）和热点论文（前0.1%），6次入选Paper Digest CVPR、ICCV、NeurIPS、ECCV年度十大最具影响力论文，一次入选Zeta Alpha 2022年百篇最高引AI论文。入选斯坦福大学2023年度全球前2%顶尖科学家，CSIG优博提名。担任CSIG VI编委，IJCAI 2021的高级程序委员会委员，以及TPAMI、IJCV、CVPR、ICCV、ECCV等多个顶级国际会议/期刊的程序委员会委员/审稿人。

陈喆：南京大学二年级在读博士，导师是路通教授。在顶级国际期刊和会议上发表学术论文11篇，谷歌学术总引用1120余次。所发表工作InternImage入选CVPR2023年度十大最有影响力论文，InternVL入选CVPR2024 Oral论文，并有多篇工作被选为CVPR Highlight、ICLR Spotlight论文。入选国家自然科学基金青年学生基础研究项目（博士研究生），在NAIC 2020、WSDM Cup 2023等竞赛中取得冠军。

分享摘要：在本次分享中，将全面介绍最新的书生图像大模型InternVL系列模型，包括InternVL 1.0和1.5。讨论1.0版本在视觉基础模型以及多模态大型语言模型（MLLM）领域的初步探索和所取得的进展。重点介绍1.5版本的核心改进，如视觉编码器的连续学习策略、动态高分辨率处理以及高质量双语数据集的构建。此外，将展示这些改进如何推动模型在多模态任务上的性能提升，并探讨InternVL系列模型在AIGC领域的应用潜力和未来发展。

相关链接：

InternVL 1.0: https://arxiv.org/abs/2312.14238
InternVL 1.5: https://arxiv.org/abs/2404.16821
项目代码：https://github.com/OpenGVLab/InternVL

直播间：关注机器之心机动组视频号，立即预约直播。

机动组技术交流群：添加小助手好友备注「研究方向」，获取行业一手资讯，欢迎大家进群聊聊。

机器之心 · 机动组

机动组聚焦于学术研究、工程实践与产业应用，筛选前沿、专业、实用内容，不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。

点击阅读原文，直达机动组官网，查看往期回顾。

微信扫码关注该文公众号作者

来源：机器之心

跟着开源的InternVL，学习如何做自己的GPT-4V

在1.0模型的基础上，InternVL 1.5引入了三项创新设计，进一步提升了模型的性能：

1.强大的视觉编码器：通过连续学习策略，InternViT-6B模型的视觉理解能力得到了显著提升，使其能够在不同的大型语言模型中进行迁移和重用。

2.动态高分辨率：InternVL 1.5能够根据输入图像的宽高比和分辨率，将图像动态划分为不同数量的448×448图像块，最高支持4K分辨率的输入，这为处理高分辨率图像提供了更高的灵活性和效率。

InternVL 1.0: https://arxiv.org/abs/2312.14238

InternVL 1.5: https://arxiv.org/abs/2404.16821

项目代码：https://github.com/OpenGVLab/InternVL

相关新闻