©PaperWeekly 原创 · 作者 | 吴文灏前段时间分享了我们在多模态大模型(MLLM)视觉信号利用方面的思考:Dense Connector,今天想和大家分享一下我们在另一个正交维度的探索:在 MLLM 的人类反馈强化学习(RLHF)方面的思考,以下分享内容由一作小学弟张梦溪和我共同完成。
论文题目:
Automated Multi-level Preference for MLLMshttps://arxiv.org/pdf/2405.11165
https://github.com/takomc/amp
简介
由于不同模态之间潜在的误对齐,多模态大模型 (MLLMs) 一直被“幻觉”问题所困扰。这里的幻觉指的是模型的回答与图像内容不符的部分。一些前人的探索(例如 LLaVA-RLHF,RLHF-V)等利用了基于强化学习的人类偏好对齐(Reinforcement Learning from Human Feedback,RLHF)。这些工作证明了 RLHF 是一种解决幻觉的方案。于是,我们也沿用了 RLHF 的思想。在做这个工作之前,我们对于 MLLM 的幻觉,尤其是与 LLM 幻觉的区别进行了思考。LLM 的模态仅限于文本,因此 LLM 的回答会更加开放。然而,MLLM 由于输入图像的限制,其幻觉也是更加细粒度的。那么,一个直观的问题:当好回答和坏回答的区别过大时,一次好回答和坏回答的比较足够让 MLLM 改正所有的幻觉部分么? 在 Automated Multi-level Preference for MLLMs 一文中,我们阐述了相比于 binary-level preference 框架,multi-level preference 框架的优势所在(如下图)。首先,多等级偏好的框架减小了相邻层级(adjacent levels)回答的 gap,能够让 MLLM 感知到不同回答间细小的区别。
另外,跨等级(cross-level)的比较会给最好的回答A提供更多的负样本,从而让回答 A 尽可能远离坏回答。基于这些思考,我们提出了一个无需人工/GPT-4V 排序,完全自动化的多等级偏好学习(Automated Multi-level Preference, AMP)的框架。同时也提出了一个新的多轮对话幻觉 benchmark MRHal-Bench。
先前的研究为了得到偏好数据集,会对不同的回答进行人工标注,这种方案对于 binary-level 是可行的,但对于 K-Level 来说,标注人员需要进行 K(K-1)/2 次。如果 K=5,那么就需要进行 10 次比较,这种标注方式成本是非常高的。另外,无论是人工,还是 GPT-4V 标注,排序数据集都会存在较大的噪声。我们将一批含有三份不同的回答 (A,B,C) 的数据集交给标注人员和 GPT-4V 进行两两比较 (A&B,A&C,B&C)。令人惊讶的是,人工/GPT-4V 比较都会产生一种矛盾现象 (A>B,B>C,C>A),且这种现象的比例为 14%/11%。这个现象证明了人工/GPT-4V 标注的多排序偏好数据集是存在较大噪声的,这些错误的排序显然会干扰偏好学习。如上面我们分析的一样,多等级的偏好学习有着天然的优势。然而,多等级的偏好学习更加复杂,如何设计一个有效的优化目标也是一个难点。偏好数据集要遵循两个原则。第一,不同回答的排序关系在大部分情况下要准确。第二,不同回答的语言风格要接近,否则就会导致 reward hacking 和优化低效。那么,我们如何构建一个初始的多等级偏好数据集呢? 根据 Scaling Law,不同大小的模型,或者是训练集大小都会影响模型的性能,根据这两个原则,都会有天然的偏好数据集。 I. 模型大小视角 (Multi-expert Generation, MEG):我们利用同一系列的模型:LLaVA-2B, 7B, 13B, 34B。这 4 种模型产生的回答再和数据集本身有的标准回答,一共构成了 5 份不同的回答。 II. 不同数据集大小视角 (Incremental Generation, IG)
首先,我们将一个大型数据集 分为 部分,利用 个子集 训练得到 个模型。那么,连同最开始的预训练模型以及数据集自身的标准回答,我们一共得到了 份不同的回答,相应伪代码如图所示。自动校验
我们利用两种方案得到了初始的多排序数据集。为了进一步优化数据集的排序关系,受 KOSMOS-2 的启发,我们提出了自动检验机制。通过分析句子依存关系,以及相似度计算,来衡量一份回答的好坏,具体细节请参考论文。
其中, 为待优化模型和基础模型 (base model), 为好回答和坏回答。
但是,我们在实验过程中发现了一个有趣的现象,训练得到的模型会输出一个重复的词或者是短语。这是由于训练过程中好回答和坏回答的概率同时下降。尽管坏回答的下降速度更快,总体 Loss 也在下降,但是模型⽣成好回答的能⼒也得到了缩减,因此我们引入了一个惩罚项来拉大生成好回答的概率:注意我们仅针对于最好的回答引入惩罚项,其余回答都是正常的 DPO 形式,那么,最终的 MDPO 形式为:实验结果
1. 在多个幻觉benchmark上的表现
我们在 MMHal-Bench,MRHal-Bench(我们建立的第一个多轮对话幻觉benchmark),LLaVA-Bench,以及 POPE 等经典幻觉 benchmark 上与通用 MLLM 和其它 RLHF 方法进行了比较,可以看到我们的方法有着显著提升。
为了验证减小相邻层级 gap 和跨层级比较的效果,我们进行了几组消融实验。可以看到,减小相邻层级 gap 会提升模型性能。甚至在一些特殊情况下 (A>C--B>C),减小 gap 的好处竟然大于降低好回答质量带来的影响。另外,跨层级的比较带来了进一步的性能提升。当下RLHF可能存在的一些局限性
尽管 RLHF 可以降低 MLLM 的幻觉现象,还有一些问题值得继续深入研究: 1. RLHF 的表现会受好回答的限制:如果好回答中仍然存在幻觉,那么优化后的 MLLM 大概率还是会有幻觉。除此之外,一些好回答只是回答正确了,在细粒度 (Informativeness),对于用户的帮助性 (Helpfulness) 上未必是最好的,这一点也影响着 MLLM 的最终性能。 2. RLHF 会降低 MLLM 的泛化性:RLHF 的数据比起 instruction tuning 的数据要小很多,有可能会导致一定程度上的灾难性遗忘。除此之外,相比于有监督中交叉熵范式,RLHF 的显性拉大好回答的概率范式会降低大模型的涌现能力。因此,平衡偏好学习和泛化性也是一个需要解决的问题。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧