Bendi新闻
>
跟着开源的InternVL,学习如何做自己的GPT-4V

跟着开源的InternVL,学习如何做自己的GPT-4V

6月前


随着人工智能生成内容(AIGC)的快速发展,多模态大型语言模型(MLLM)在理解和生成结合视觉与语言的信息方面展现出巨大潜力。然而,现有的开源MLLM与商业模型之间存在性能差距。为了应对这一挑战,书生图像大模型InternVL 1.0模型作为早期的开源尝试,通过将视觉基础模型扩展到6亿参数,并与大型语言模型进行对齐,为缩小这一差距奠定了基础。

在1.0模型的基础上,InternVL 1.5引入了三项创新设计,进一步提升了模型的性能:

1.强大的视觉编码器:通过连续学习策略,InternViT-6B模型的视觉理解能力得到了显著提升,使其能够在不同的大型语言模型中进行迁移和重用。

2.动态高分辨率:InternVL 1.5能够根据输入图像的宽高比和分辨率,将图像动态划分为不同数量的448×448图像块,最高支持4K分辨率的输入,这为处理高分辨率图像提供了更高的灵活性和效率。

3.高质量双语数据集:研究团队精心构建了一个覆盖常见场景和文档图像的高质量双语数据集,并用英语和中文进行了问答对标注,显著增强了模型在OCR和中文相关任务中的性能。这些创新使得InternVL 1.5在多模态任务中的性能得到了显著提升,有效地缩小了开源模型与商业模型之间的性能差距。

为了更好的帮助大家了解这项工作,机器之心最新一期线上分享将带来最新的书生图像大模型InternVL系列模型的全面介绍。

分享主题:我们离GPT-4V还有多远?通过开源套件缩小与商用多模态模型之间的差距

嘉宾介绍:

王文海:南京大学博士,香港中文大学博士后。研究方向为视觉基础模型研究,上海人工智能实验室“书生”系列视觉基础模型核心开发者。主要成果发表在顶级期刊和会议TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等共43篇论文,其中19篇为一作/共一/通信。研究成果获得了总共超1.6万次引用,单篇最高引用超3000次。研究成果分别入选CVPR 2023最佳论文,世界人工智能大会青年优秀论文奖,CVMJ 2022最佳论文提名奖,两次入选ESI高被引论文(前1%)和热点论文(前0.1%),6次入选Paper Digest CVPR、ICCV、NeurIPS、ECCV年度十大最具影响力论文,一次入选Zeta Alpha 2022年百篇最高引AI论文。入选斯坦福大学2023年度全球前2%顶尖科学家,CSIG优博提名。担任CSIG VI编委,IJCAI 2021的高级程序委员会委员,以及TPAMI、IJCV、CVPR、ICCV、ECCV等多个顶级国际会议/期刊的程序委员会委员/审稿人。

陈喆:南京大学二年级在读博士,导师是路通教授。在顶级国际期刊和会议上发表学术论文11篇,谷歌学术总引用1120余次。所发表工作InternImage入选CVPR2023年度十大最有影响力论文,InternVL入选CVPR2024 Oral论文,并有多篇工作被选为CVPR Highlight、ICLR Spotlight论文。入选国家自然科学基金青年学生基础研究项目(博士研究生),在NAIC 2020、WSDM Cup 2023等竞赛中取得冠军。

分享摘要:在本次分享中,将全面介绍最新的书生图像大模型InternVL系列模型,包括InternVL 1.0和1.5。讨论1.0版本在视觉基础模型以及多模态大型语言模型(MLLM)领域的初步探索和所取得的进展。重点介绍1.5版本的核心改进,如视觉编码器的连续学习策略、动态高分辨率处理以及高质量双语数据集的构建。此外,将展示这些改进如何推动模型在多模态任务上的性能提升,并探讨InternVL系列模型在AIGC领域的应用潜力和未来发展。
相关链接:
  • InternVL 1.0: https://arxiv.org/abs/2312.14238

  • InternVL 1.5: https://arxiv.org/abs/2404.16821

  • 项目代码:https://github.com/OpenGVLab/InternVL

直播间:关注机器之心机动组视频号,立即预约直播。

机动组技术交流群:添加小助手好友备注「研究方向」,获取行业一手资讯,欢迎大家进群聊聊。



机器之心 · 机动组
机动组聚焦于学术研究、工程实践与产业应用,筛选前沿、专业、实用内容,不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。


点击阅读原文,直达机动组官网,查看往期回顾。

微信扫码关注该文公众号作者

来源:机器之心

相关新闻

上海AI Lab开源首个可替代GPT-4V的多模态大模型手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准无需人工/GPT-4V排序,针对多模态大模型的全自动多级偏好学习手机上能跑的 GPT-4V!面壁发布端侧最强多模态小钢炮 2.6,实时视频理解首次上端掀翻 GPT-4V 的国产「小钢炮」,可能会是华为小米们对抗 AI iPhone 的关键武器一夜掀翻 GPT-4V 的国产「小钢炮」,可能会是华为小米们对抗 AI iPhone 的关键武器端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?零一万物发布Yi-VL多模态语言模型并开源,测评仅次于GPT-4V这个春天,跟着专业编剧,写出属于你自己的电影剧本!跟着ChatGPT4o学全栈,我看到未来“学习”的模样跟着未来学校“猫猫果儿”在神秘云南创造自己的人生剧本 |夏令营推荐可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术流感、病毒的高发季,还得给娃这么吃!做一次能吃3个月,免疫力也跟着蹭蹭涨完全开源!谢赛宁发布最新SOTA多模态模型Cambrian-1,“不与GPT-4V媲美”开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源老师,你觉得研究生是跟着push的导师好,还是放养的导师好?跟着十年前的摄影书学拍照,抓贼啦!跟着我们的 vlog,去英国的音乐场景走一圈跟着会读书的人深度阅读经典,《细读商业经典》买1年得2年每年的秋冬打底跟着我买!只有美丽,没有“冻人”!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。