Bendi新闻
>
五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计

五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计

9月前

©PaperWeekly 原创 · 作者 | 陈思硕

单位 | 北京大学

研究方向 | 自然语言处理


引言

多模态大模型的视觉编码器用哪种预训练 ViT?两阶段训练是否有必要?ViT 的参数应该冻结还是打开?大语言模型应该用 Base 还是 Chat 版本?是否要加入纯语言的安全对齐数据?训几个 epoch 合适?......

随着大语言模型进入多模态时代,LLaVa、MiniGPT-4、BLIP-2、InstructBLIP 等开源视觉-语言大模型接踵而至,它们在视觉编码器、大语言模型、训练方案等关键方面各不相同,颇有“乱花渐欲迷人眼”之感。

近日,Standford 的 Percy Liang 团队在 LLaVa-v1.5 的基础上对各种视觉-语言模型的关键组件进行了系统的消融实验分析,总结成了 Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models 这篇文章,今天我们来进行解读,以挖掘视觉-语言模型设计中的关键要素,借鉴此文推荐的 best practice。

论文题目:

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

论文链接:

https://arxiv.org/abs/2402.07865


项目主页:

https://github.com/TRI-ML/prismatic-vlms



设计空间:多模态大模型的设计需要关注哪些关键要素?

目前开源多模态大模型的架构设计和训练方案逐渐趋同,典型方案如下:

  • 模型架构上,以 CLIP 或者其他方式预训练的 ViT 编码图像特征,通过 MLP/Q-Former 等桥接模块后得到了和语言空间对齐的特征,作为图像表征输入 LLaMa 等主干大语言模型(下图给出了 LLaVa-v1.5 的架构);
  • 训练方案上,先冻结住 ViT 和语言大模型,在大规模图像-文本对上训练桥接模块进行特征的对齐,第二阶段则打开桥接模块和大语言模型的参数,在高质量的视觉 SFT 数据上进行 Instruction Tuning。

▲ LLaVa-v1.5的模型架构哦

在这套框架之下,存在诸多可以变换的关键要素,本文将它们归纳为以下四个部分:

  1. 优化策略:视觉编码器的参数应该冻结还是打开?两阶段训练是否有必要?
  2. 视觉表征和图片处理:使用哪一类预训练 ViT 最好?图像如何进行预处理效果最好?
  3. 大语言模型的选择:应该使用 base 模型还是 chat 模型?和纯语言的对齐数据联合训练是否有用?
  4. Scaling 性质:最佳训练 epochs 和数据量。

▲ 多模态大模型的设计空间


评测数据集与训练设定

为了评价各关键组件的不同选择的优劣,本文构建了一套全面的视觉-语言下游任务评测数据集,以采用不同关键组件选择的模型在它们上面的 zero-shot 测试性能评价不同组件选择的好坏。这套 benchmark 包含以下数据集:

  • Open-Ended VQA:VizWiz、VQAv2、GQA 和 TextVQA;
  • Localization:RefCOCO、RefCOCO+、RefCOCOg、OCID-Ref;
  • Challeng Sets:VSR(空间关系推理)、TallyQA(物体计数)和 POPE(幻觉程度)。

▲ 本文使用的评测数据集组合

训练数据方面,本文则遵从 LLaVa-v1.5 使用的训练数据,第一阶段对齐训练数据为从 CC3M 和 LAION 等大规模图文预训练数据集中选取的 558K 图文对,第二阶段 SFT 数据由 LLaVa Synthetic Data、Standard VQA Data、Multiple Choice VQA Data、Captioning Data、Referring Expression Data、ShareGPT(Language-Only)等混合而成,总数据量为 665K。

模型方面,本文在 LLaVa-v1.5 7B 和 13B 两个规模的模型设定下对各设计要素进行了充分的消融实验分析,下文详细解读。


设计要素1:优化策略

首先回顾 LLaVa-v1.5 的优化策略:如下图所示,第一阶段只打开桥接 MLP(Projection)的参数,进行图生文训练,对齐视觉编码器和 LLM 的表示;第二阶段则打开桥接 MLP 和 LLM 的参数,进行多模态 SFT。作者提了两个问题:

  • Q1:两阶段训练是否必要(第一阶段是否可省)?
  • Q2:视觉编码器的参数(ViT)应该打开还是冻结?
A1:第一阶段图文对齐训练是冗余的,可以省去以提升训练效率。

如下图所示,在 7B 和 13B 两种规格下,只有第二阶段 SFT 训出的模型(橙色)在各测试集上的性能都与两阶段训出的模型(绿色)相当或略好,说明第一阶段图文对齐训练是冗余的,去掉它不会导致性能下降,还能省略 20%-25% 的训练时间
▲ SFT 单阶段训练 v.s. 模态对齐+ SFT 两阶段训练

A2:打开视觉编码器(ViT)参数有害,尤其是导致定位任务掉点严重

如下图所示,采用单阶段训练、冻结住视觉编码 ViT 参数的模型(橙色)在大多数任务上性能最好,打开所有 ViT 参数训练会导致 RefCOCO 等视觉定位任务严重掉点。笔者猜想:可能是 SFT 训练数据中包含的需要定位能力的部分较少,全量训练破坏了定位所需的视觉特征,如果 SFT 数据中有定位类型的数据,可能结论会有变化。

▲ ViT 参数是否打开的影响


设计要素2:视觉表征和图片处理

首先回顾 LLaVa-v1.5 的视觉表征和图片处理策略:使用图文对比学习预训练的 CLIP ViT 抽取视觉表征,图片输入时使用 letterbox padding(把非正方形的图像 padding 成方形)。作者提了两个问题:

  • Q1: 视觉编码器用哪种预训练策略得到的 ViT 模型最好?
  • Q2:图片预处理策略该用 lettebox padding, resize&crop,还是简单的 naive resize?


A1:CLIP 和 SigLIP 明显优于 DINO-v2 和 ImgaNet-1k ViT;SigLIP+DINO-v2 组合最好

作者首先做了了只有单个预训练 ViT 模型做视觉编码器时的对比实验,测试了图文对比学习预训练的 CLIP、SigLIP(使用 Sigmoid Loss 优化的 CLIP)、纯视觉自监督预训练的 DINO-v2 和 ImageNet-1k上纯视觉有监督预训练的 ViT,模型规模都是 ViT-Large。

结果如下图所示,使用大规模图文对对比学习预训练的 CLIP 和 SigLIP 作为 LLaVa-v1.5 的视觉编码器时,对应的下游任务性能显著好于纯视觉预训练的 DINO-v2 和 ImageNet-1k ViT
作者进一步探究了集成两个预训练模型作为视觉编码器时哪种组合效果较好(集成的方式是在 channel,也就是 hidden dim 维度直接拼接特征),发现 DINO-v2 和 SigLIP 组合的效果最好。作者猜测该现象是由于 DINO-v2 编码 low-leve 特征和 SigLIP 编码的 high-level 语义特征可以较好地互补。
▲ DINO-v2+CLIP 和 DINO-v2+SigLIP 的效果对比

A2:对 CLIP 而言 Naive Resize 最好,对 SIigLIP 而言 Naive Resize 与 Letterbox Padding 相当

作者在使用 CLIP、SigLIP 作为视觉编码器的模型上分别比较了各种图像预处理策略的好坏,发现如下图左所示,对 CLIP 而言,简单的 Naive Resize 最好,而对 SigLIP 而言 Naive Resize 与 Letterbox Padding 的效果相当,对两种视觉编码器而言 resize & crop 的性能是最差的,因为 crop 部分区域会导致信息损失

另外,作者还探究了图像分辨率对下游任务效果的影响。如上图右所示,将图片分辨率从 224 开大到 384 对许多任务都能带来显著提升,当然相应的视觉 token 数目和计算代价也会显著上升。


设计要素3:基座大语言模型的选择

首先回顾 LLaVa-v1.5 的基座大模型选择和训练数据选取策略:使用从 LLaMa-2 SFT 而来的 Vicuna-v1.5 作为基座大模型,训练时加入纯语言的安全对齐数据。作者对此提了两个问题:

  • Q1:使用 base 模型好还是经过 SFT 的 instruct-tuned 模型好?
  • Q2:纯语言的安全对齐数据是否能增强模型在图文任务上的安全性?

A1:base 模型和 instruct-tune 模型在下游任务上效果接近,但 base 模型幻觉更少

如下面的雷达图所示,LLaMa-2 base 充当基座的模型在各下游任务上和 Vicuna-v1.5 这个 instruct-tuned 版本充当基座的模型效果基本相当,而且在 VSR(Visual Spatial Reasoning)上 LlaMa-2 base 对应的性能明显更好。在可量化的下游任务指标之外,作者还定性评估了两类模型的幻觉程度,发现 base 模型产生的幻觉更少

Instruct-tuned LMs lead to VLMs that are more verbose, prone to hallucination, and generally less specific in their response.


因此作者推荐在构建多模态大模型时使用 base 版本的 LLM 作为文本侧的基座

▲ LLaMa-2 base 充当基座的模型在各下游任务上和 Vicuna-v1.5 这个 instruct-tuned 版本充当基座的模型效果基本相当

▲ LLaMa-2 base 充当基座的模型比 Vicuna-v1.5 这个 instruct-tuned 版本充当基座的模型幻觉更少

A2:在纯语言的安全数据上联合训练有助于提升多模态任务的安全性

LLaVa-v1.5 使用的训练数据包括纯文本数据集 ShareGPT 中的 40K 样本,含有大量恶意 prompt 和对应的 ChatGPT 产生的较安全的回复。作者对这部分训练数据进行了消融实验,发现纯语言的安全数据几乎不影响各种多模态下游任务的量化指标(下图左),但能增强对话的安全性,降低种族主义等有害倾向(下图右)。

▲ 纯语言的安全数据几乎不影响各种多模态下游任务的量化指标(左),但能增强对话的安全性,降低种族主义等有害倾向(右)。



设计要素4:Scaling性质

作者在最后探究了训练 epoch 数、训练数据量等 scaling 相关的性质,关键结论有:

  • 训练时间:两个 epoch 最合适,再增加训练时间收益不显著;
  • 训练数据:在 LLaVa-v1.5 的数据基础上添加图像多样性高的 LRV-Instruct 数据集带来的提升显著。



小结

总结一下本文归纳的一套多模态大模型训练最佳实践:

  • 优化策略:打开桥接模块和语言模型的参数进行单阶段训练,冻结视觉编码器的参数;
  • 视觉表征:使用 SigLIP 或者 SigLIP+DINO-v2 当视觉编码器,图像预处理用 naive resize;
  • 语言模型:base 模型比 instrcut-tuned 模型好,加入纯语言的安全对齐数据可以增强在多模态任务上的安全性;
  • Scaling 性质:训练 2 个 epoch 比较合适,添加图像多样的多模态 SFT 能带来显著收益。

作者采用以上的 best practice 训练了 7B 和 13B 版本的Prism模型,从下图可以看出性能显著优于同等参数量的 LLaVa-v1.5 和 InstructBLIP,代码和模型开源在 GitHub-TRI-ML/prismatic-vlms: A flexible and efficient codebase for training visually-conditioned language models(VLMs)(https://github.com/TRI-ML/prismatic-vlms)。

这里顺便为初入 NLP 和大模型领域的同学推荐一本宝藏技术书籍:《大模型应用解决方案 基于 GPT-3、ChatGPT、GPT-4 等 Transformer 架构的自然语言处理》,昵称叫“大模型黑书”:

▲《大模型应用解决方案 基于GPT-3、ChatGPT、GPT-4等Transformer架构的自然语言处理》

这本宝藏”大模型黑书“对 Transformer 架构及其在 NLP 任务中的应用介绍得很深入,覆盖了文本分类、序列标注、语义角色标注、少样本和零样本学习等应用场景和 BERT、RoBERTa、ELECTRA、T5、GPT-3、GPT-4 等一系列基于Transformer 架构的代表性预训练模型,而且每章都包含 Huggingface Transformers 代码实例,非常适合新入行者快速上手,资深 NLPer 们备一本随时参考也是极好哒~



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

首个专为半导体行业设计的开源大模型 SemiKong 问世算数不行、还不懂中国文化,大模型现在抢不了设计师的饭碗! | AI 测评室大模型场景下智算平台的设计与优化实践张唐:懂参数化建模的设计师优先录取芭莎设计大赏大盘点:设计见证美好生活的诞生Figma 大更新:这个由理科生创办的设计界独角兽,果然要用AI取代设计师了?"艺术爬藤"的秘诀:艺术设计赛道申请顶尖大U张唐景观:还得招懂参数化建模的设计师才行!《幻兽帕鲁》爆火,大厂坐不住了:这游戏是AI设计的?从头设计抗体,腾讯、北大团队预训练大语言模型登Nature子刊港大鲁教授1v1科研:基于深度神经网络的控制器设计星巴克刚换新LOGO!却被群嘲“偷感”太重,但它才是隐藏的设计大佬…全球首个芯片设计开源大模型诞生!5年重塑5000亿美元半导体行业与AlphaFold3持平!国产抗体设计生成式AI大模型发布,能同时预测抗原抗体复合物结构和抗体从头设计一家人就要腻歪在一起!今年见过最大的大大大横厅设计,主打陪伴最大化斯坦福团队开发生成式AI模型,设计易于合成的新抗生素分子对抗「超级细菌」俄罗斯新型忠诚僚机模型亮相,与原始设计相比大倒退面向RISC-V异构AI芯片的“大编译器”设计和实现 | 演讲预告在 IDE 中实现自然语言搜索代码:RAG 策略的设计与落地难受,现在的设计动不动就要用到参数化建模...全球第三大给药系统,透皮给药的设计、开发、生产和测试有何难点?​北大发表 AI Alignment综述:确保AI与人类价值观一致的四个关键设计原则哇塞了!多伦多湖滨要大变样!61页设计图曝光:浮动露台、大排档...AACR:ADC治疗癌症继续火爆,成为关键治疗方式;Nature子刊:ADC的新一轮突破,在于这五个创新性设计
logo
联系我们隐私协议©2025 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。