ICLR 2024 | OCTAVIUS: 通过MoE缓解MLLM任务间的干扰

科学

1年前

最近的研究表明，大型语言模型（LLM）可以通过指令微调将其零样本泛化能力扩展到多模态学习。但随着更多种模态和下游任务的引入，任务间的冲突和干扰可能会对模型的性能造成更严重的影响，即 tug-of-war（任务间互相竞争，可以类比拔河）问题。

例如，对于目标检测任务来说，模型的输出应该是一些物体框的坐标，而对于一般的问答任务来说，模型的输出是一段流畅的文字，因此这两种任务输出之间的差异很大。将这两种任务放在一起训练同一个模型，就会使模型的性能急剧下降。然而，这种现象在以前的工作中经常被忽视。

针对这一问题，来自上海人工智能实验室和北京航空航天大学的研究者们提出了一种新颖的可扩展框架，称为 OCTAVIUS，用于多模态大语言模型（MLLM）进行多模态学习的综合研究。

具体来说，该框架将著名的混合专家系统（MoE）和具有代表性的参数高效微调（PEFT）技术 LoRA 相结合，设计了一种新型的基于 LLM 的解码器，称为 LoRA-MoE，该设计能够为不同的下游任务自动分配不同的专家，以此来减轻任务之间的冲突。

在图像和点云模态的多个任务上，Octavius 获得了超过 20 个点的平均提升

论文链接：

https://arxiv.org/abs/2311.02684

项目链接：

https://openlamm.github.io/paper_list/Octavius

demo链接：

http://106.14.2.150:10006/

为何MoE在MLLM中能发挥如此重要的作用？

得益于参数高效微调（PEFT）技术，MLLM 仅需要在模型中添加少量可训练参数就可实现高效的模型训练。因此最近的 MLLM （例如 LAMM, Shikra, Kosmos）可以有效地学习使用小规模有标签数据来解决下游任务，同时保持对话能力和对新场景的泛化性。

PEFT 虽然已被广泛应用于 LLM 的训练中，但是在使用时总会遇到 tug-of-war 的问题，即同时学习不同的任务可能会取消每个特定于任务的优化，并最终损害每个下游任务的性能。这个问题在 MLLM 中更为严重，特别是当涉及更多模态和任务，但只有少量优质的有标签数据可用时。

为了解决这个问题，本文提出了 LoRA-MoE，一个可以通过学习更多的 LoRA 模块来有效地参与更多的下游任务和更多的模态的基于 LLM 的解码器。与传统的 MoE 模型不同，我们采用简单而有效的 instance-based 的门路由方案，通过instance-level 的指令稀疏地激活独立的 LoRA 专家，并进一步获取特定于任务的知识，以更好地协调不同的任务。

基于上述内容，本文引入了一个新颖且通用的框架，称为 OCTAVIUS，利用来自 LAMM 和 ScanNet 的数据重新构造了一个指令跟随数据集来训练 MLLM。OCTAVIUS 可以有效解决各种 2D/3D 视觉和语言任务，包括但不限于 2D detection、2D caption、3D VQA 和 3D dense caption。本文进行了各种实验来验证我们设计的有效性和多功能性，在只增加少量可训练参数的情况下，将多个下游任务指标提高了约 20%。

OCTAVIUS的组成元素

2.1 多模态解码器（Multimodal Decoder）

尽管 LAMM 的原始数据集（LAMM v1）包含大量来自 MS-COCO 的图像，但缺乏足够的检测指令数据导致其在 PASCAL VOC 上的性能较差。为了克服这个问题，我们利用整个 COCO 数据集的检测标注和 GPT-API 生成的额外的检测指令作为补充，构建了一个名为 LAMM v2 的新数据集，以在检测任务上获得更强的泛化性能。

在 3D 模态上，由于其多样化的任务和注释类别，我们基于 ScanNet 构建了我们的 3D 指令调整数据集 Scan2Inst。

不同模态和任务之间的干扰是多模态和多任务学习中常见且关键的问题。虽然 MLLM 可以通过对所有任务采用相同的学习目标，即 next token prediction 来缓解这个问题，但仍然存在特定于任务的差异，限制了它们在各种下游任务中的潜力。

为了解决 tag-of-war 的问题，本文提出了一个基于 instance-based 的门路由策略的统一解码器。与 LLM 中基于 token 的门不同，我们为 MLLM 设计了一种简单但有效的路由策略，将下游任务分配给独立专家以获取基于单个 instance 的特定知识，称为基于 instance 的门。

多模态指令中输入的问题会极大地影响 MLLM 生成的回答，因此我们将这些问题作为输入来预测每个专家的路由分数。然后，我们根据每个 instance 的路由分数来稀疏得激活部分专家来生成回答。

在这项工作中，LoRA 模块被视为 MLLM 中的专家，将基于 instance 的门与它相结合以减轻多模态学习产生的干扰，命名为 LoRA-MoE。通过将语言模型中每个投影层中的 LoRA 替换为一组独立的 LoRA 专家，我们可以预测 token 值如下：

2.2 多模态编码器

2.2.1 图像编码器

对于图像输入，我们使用预先训练的 CLIP 视觉编码器提取和语言对齐的视觉特征，然后使用一个可训练线性层来对齐视觉特征和文本特征的维度。

2.2.2 点云编码器

传统的 3D 方法经常使用 3D CNN 或者 Transformers 作为特征提取器来处理稀疏的点云特征，然而，它们仍然保留了大量低密度信息的背景点，这可能会混淆 MLLM 中后续的语言模型，从而忽略场景中的关键元素。为了解决这些问题，我们提出了 Object-As-Scene 模块作为我们的点云编码器，专用于语言对齐的场景级 3D 表示生成。该模块可以分解成以下三个部分：

1. 感兴趣区域提取：给定 3D 点云场景，采用预先训练的对象检测器从场景中提取候选的 RoIs（感兴趣区域）。

2. 特征对齐：参考类似 ULIP 的对比学习方法，将第一步提取出的区域级点云特征和对应的图片与文本特征对齐，预训练一个 Point-Bert 作为点云编码器。

3. 特征聚合：使用一组可学习的 query 从得到的区域级点云特征里自适应聚合相关特征。