Bendi新闻
>
视觉特征在语言空间中如何分布?武大、上海交大提出统一多模态自回归建模框架

视觉特征在语言空间中如何分布?武大、上海交大提出统一多模态自回归建模框架

7月前

©PaperWeekly 原创 · 作者 | 彭天硕

单位 | 武汉大学本科生

研究方向 | 多模态理解与生成


大型语言模型(LLMs)通过在大规模未注释文本语料库上执行自回归建模方法,展现出强大的感知和推理能力。然而,将自回归建模扩展到多模态场景以构建大型多模态模型(LMMs)时,存在一个很大的困难,即图像信息在 LMM 中被处理为连续的视觉嵌入,无法获得离散的监督标签用于进行分类损失计算。


在本文中,研究者首次成功地进行了采用统一目标的多模态自回归建模,并且进一步探讨了 LLMs 内部语义空间中视觉特征的分布以及使用文本嵌入来表示视觉信息的可能性。

论文题目:
Multi-modal Auto-regressive Modeling via Visual Words

论文地址:

https://export.arxiv.org/abs/2403.07720

代码地址:

https://github.com/pengts/VW-LMM

Hugging Face库:

https://huggingface.co/MYTH-Lab/VW-LMM-Vicuna-7b
https://huggingface.co/MYTH-Lab/VW-LMM-Mistral-7b
https://huggingface.co/MYTH-Lab/VW-LMM-Vicuna-pif-7b



动机

得益于在大规模未标记文本上执行自回归建模方法,大型语言模型(LLMs)能够从自然语言语料库中学习通用的语义信息和强大的推理能力。然而,对于将自回归建模扩展到多模态场景而言,存在一个很大的困难,即图像信息在 LMM 中被处理为连续的视觉嵌入,无法获得离散的监督标签用于分类损失计算。

▲ 图1:不同LMM方法对比


如图 1(a)所示,作为一种妥协的解决方案,主流的 LMM 选择仅计算多模态交织序列中的语言部分的损失,将视觉信息视作上下文提示。这种不公平对待缺乏利用 LLM 的推理能力学习不同模态信息的过程,严重限制了 LMM 的潜力。


图 1(b)展示的一类方法提出在训练阶段使用回归任务来预测下一个视觉特征的值,但其视觉和语言组件的不一致优化目标不利于统一的多模态自回归建模。


为了解决这一挑战,研究者提出了 VW-LMM(visual word large multi-modal model)。VW-LMM 引入了视觉词(visual words)的概念,用于构建视觉特征在LMM内部语义空间中的分布,为视觉建模(visual modeling)提供了监督信息。


如图 1(c)所示,借助视觉词,VW-LMM 可以在不进行任何特定架构修改的情况下,实现统一的多模态自回归建模训练。



方法
2.1 整体结构

▲ 图2:模型整体结构


如图 2 所示,VW-LMM 的架构包括五个组件:一个视觉编码器(visual encoder),一个多模态解码器(multi-modal decoder),一个用于视觉-语言投影的适配器(adapter),一个用于多模态建模的多模态建模头(multi-modal modeling head,下称 MM head),以及与之对应的用于视觉建模的 VM head。


嵌入层(embedding)可以被看作是多模态解码器的一部分。研究者使用预训练的 LLM 及其 LM head 初始化 VW-LMM 中的多模态解码器和 MM head。

2.2 多模态学习方法(multi-modal learning)

为了将 LLM 的强大的文本感知和推理能力扩展到处理多模态输入,现有多模态学习方法通常使用适配器结构将预训练的视觉主干编码的视觉特征投影至 LLM 的语义空间,并与文本嵌入一起构建多模态输入序列。


对于文本指令 text 和对应的图像 image,LMM 的输入构造如下:

▲ 图3:多模态输入序列构造


其中 表示 LLM 的词嵌入层(embedding layer),VE 表示视觉编码器(visual encoder),AD 表示适配器(adapter)。


假定 LLM 包含两个主要部件:大型解码器 和语言建模头 LM head,LMM 对多模态序列中语言部分的建模损失计算如下:

▲ 图4:语言建模损失


其中 是 LM head 的参数,集合 表示期望学习的文本输出对应的索引。


该损失也是主流 LMM 训练使用的唯一损失。

2.3 视觉词(visual words)

为了进一步加强视觉特征与文本嵌入之间的相关性,VW-LMM 使用 VM head 将视觉特征映射到模型词汇表上的概率分布,研究者称之为“视觉词”。对于给定的视觉特征 ,对应的视觉词表示如下:

▲ 图5:视觉词计算方式


其中 是 VM head 的参数。


VW-LMM 对多模态序列中语言部分的建模损失表示为:

▲ 图6:VW-LMM的语言建模损失


其中 是 MM head 的参数, 表示多模态解码器。


VW-LMM 对多模态序列中视觉部分的建模损失表示为:

▲ 图7:VW-LMM的视觉建模损失


集合 表示多模态序列中视觉信息对应的索引。

最终的优化目标为多模态建模损失

▲ 图8:VW-LMM的优化目标

2.4 伪图像特征(pseudo image features)

为了进一步探索视觉特征在 LMM 语义空间中的表现形式,研究者提出利用视觉词和词嵌入层来构建伪图像特征

▲ 图9:伪图像特征的构造


其中 表示 LMM 内部的词嵌入, 表示点积操作。


通过使用 代替 ,研究者在实验中探究了视觉词对视觉特征的表示情况。



实验

3.1 定量实验

▲ 表1:定量实验


VW-LMM 在 5 个视觉问答(visual question answering)和 4 个基准测试工具(benchmark toolkit)上取得比相同规模的模型更优秀的视觉-语言理解能力,凭借 7B 参数量赶超 13B 甚至更大规模的模型。更多结果在论文中提供。

3.2 消融实验

▲ 表2:消融实验


消融实验证明了通过视觉词实现统一的多模态自回归建模方法的有效性。


使用伪图像特征的模型仍然表现出有竞争力的视觉-语言理解能力,验证了使用视觉词构造视觉特征在 LMM 语义空间中分布的有效性。

3.3 定性实验

▲ 图10:定性实验


对于图像中的每个图块,研究者选择其对应视觉词中概率最高的标记在图10中进行展示。结果表明,视觉词成功地实现了视觉特征向文本语义空间的转换。详细分析在论文中提供。



总结

本研究首次实现了具有统一目标的多模态自回归建模,通过视觉词表示视觉特征在 LMM 内部语义空间的分布,从而构建了用于视觉建模的监督标签。此外,研究者还通过实验验证了视觉词对视觉信息的表示以及使用文本嵌入表示视觉信息的可行性。


结果表明,视觉词成功实现了视觉空间到语言空间的语义转换,并有效地增强了模型的视觉-语言理解能力。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果AI视觉的“大一统”:从CV到多模态,从行业大模型到机器人,旷视如何布局?五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计核心代码仅三行!即插即用的视觉语言连接器,一键提升多模态大模型字节、华科发布多语种视觉文本理解新基准,多模态大模型还有很长的路要走上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑LAMM:多模态指令微调数据集、框架、评测基准抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法我们是如何在 IDE 中设计 AutoDev 的 AI 编程开发智能体语言与框架?CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!模型越大,性能越好?苹果自回归视觉模型AIM:没错Cell Genomics | 同济大学刘琦教授团队开发面向TCR和T细胞转录谱多模态整合的免疫数字解码AI框架多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力Apache 顶级项目 MXNet 退役!大神李沐创办、亚马逊首选深度学习框架如何从大厂“宠儿”到落入“冷宫”?CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能ICLR 2024 | 机器人领域首个开源视觉-语言操作大模型!RoboFlamingo框架激发开源VLMs更大潜能太全了!苹果上新视觉模型4M-21,搞定21种模态IEEE RAL 2024 | Safe-VLN:针对连续环境中视觉语言导航任务的避障框架CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。