Bendi新闻
>
零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先
零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先
10月前
机器之心发布
机器之心编辑部
https://huggingface.co/01-ai https://www.modelscope.cn/organization/01ai
Vision Transformer(简称 ViT)用于图像编码,使用开源的 OpenClip ViT-H/14 模型初始化可训练参数,通过学习从大规模「图像 - 文本」对中提取特征,使模型具备处理和理解图像的能力。 Projection 模块为模型带来了图像特征与文本特征空间对齐的能力。该模块由一个包含层归一化(layer normalizations)的多层感知机(Multilayer Perceptron,简称 MLP)构成。这一设计使得模型可以更有效地融合和处理视觉和文本信息,提高了多模态理解和生成的准确度。 Yi-34B-Chat 和 Yi-6B-Chat 大规模语言模型的引入为 Yi-VL 提供了强大的语言理解和生成能力。该部分模型借助先进的自然语言处理技术,能够帮助 Yi-VL 深入理解复杂的语言结构,并生成连贯、相关的文本输出。
第一阶段:零一万物使用 1 亿张的「图像 - 文本」配对数据集训练 ViT 和 Projection 模块。在这一阶段,图像分辨率被设定为 224x224,以增强 ViT 在特定架构中的知识获取能力,同时实现与大型语言模型的高效对齐。 第二阶段:零一万物将 ViT 的图像分辨率提升至 448x448,这一提升让模型更加擅长识别复杂的视觉细节。此阶段使用了约 2500 万「图像 - 文本」对。 第三阶段:零一万物开放整个模型的参数进行训练,目标是提高模型在多模态聊天互动中的表现。训练数据涵盖了多样化的数据源,共约 100 万「图像 - 文本」对,确保了数据的广泛性和平衡性。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
世界顶尖多模态大模型开源!又是零一万物,又是李开复零一万物发布Yi-VL多模态语言模型并开源,测评仅次于GPT-4V零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新北京获准的大模型占全国近半;OpenAI CEO筹建AI芯片公司;零一万物多模态语言模型上线丨AIGC大事日报零一万物发布千亿参数模型 Yi-Large,李开复:中国大模型赶上美国,立志比肩 GPT-5李开复大模型公司零一万物完成数亿美元融资;Figure 02人形机器人发布丨AIGC日报零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR争算力,争数据,争用户!零一万物、月之暗面再掀国产大模型资本战:年内亿元级融资已有20起最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V如何让企业把大模型用起来?零一万物的答案是 API 开放平台零一万物李谋:当大模型推理遇到算力瓶颈,如何进行工程优化?零一万物 API 上线,用户反馈多模态中文图表体验超过 GPT-4V李彦宏:开源大模型不如闭源,后者会持续领先;周鸿祎:“开源不如闭源” 的言论是胡说八道AI早知道|Figure发布第一个OpenAI大模型加持的机器人demo;零一万物全面开放笛卡尔向量数据库搜索内核1至2月社零总额增长5.5%,马斯克突然开源大模型 | 财经日日评零一万物发布千亿参数模型、海外产品收入将超1亿,李开复:我10年不套现AI早知道|零一万物发布千亿参数模型;智谱AI上线大模型开放平台8点1氪:李佳琦方回应直播间卖假和田玉传闻;特朗普遭刺杀后支持率未显著领先;多家大模型测不出9.11和9.9哪个大华为、苹果发布会「贴脸开大」,谁遥遥领先?重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型喂饭级教程!零代码搭建本地个人知识库 ,支持GPT4、Llama3、Kimi等十几种大模型国内大模型五虎融资仅是巨头零花钱?谷歌、微软、Meta:每季度拿不出 100 亿美元别玩 AI国内大模型五虎融资仅是巨头零花钱?谷歌、微软、Meta:每季度拿不出100亿美元别玩AI