ICML 2024 | 为什么我们应该做online RLHF/DPO?
©作者 | Wei Xiong
单位 | UIUC
研究方向 | 大语言模型对齐
偏好学习与对齐
1.1 偏好学习的定义
我们用 表示一个 prompt,用 表示一个回复。我们假定我们有一个初始模型 ,它经过预训练和监督微调(instruction-following training),我们的目标是更改它的输出分布,使得它能被人类所喜欢。
偏好数据收集:我们假设提示是从分布 中采样的,并且我们有两个行为策略 用来采集回复,那么一个比较对的采集方式可以表示为
其中随机偏好信号 表示 更好,反之,表示 更为人喜欢。我们总结大模型训练的不同阶段:
1.2 Offline/Online; Off-policy/On-policy
DPO 直接在给定的数据集上进行偏好学习:offline 我们从一个给定的数据集训练得到一个奖励函数,并使用 PPO 优化这个奖励函数:offline 我们从一个给定的数据集训练得到一个奖励函数,并使用 rejection sampling finetuning 优化:offline
DPO 是 off-policy 的 我们从一个给定的数据集训练得到一个奖励函数,并使用 PPO 优化这个奖励函数:on-policy
主要理论结论
2.1 Offline Learning
▲Figure 13 of Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback.
2.2 批量混合训练(Batch hybrid learning)
在 LLaMA2,Instruct-GPT,Claude 的 technical report 中(怀念大家还愿意分享技术细节的时代),事实上他们的 RLHF 都不是 offline 进行的,总结而言,他们都是进行一种批量混合训练
离线阶段:open-source dataset + 使用 及其变种(例如 best-of-n)采集初始数据集 在线阶段:在训练的过程中,将一些中间步骤得到的模型进行部署,让 human 对新模型的输出进行标签,这个步骤通常以周为单位迭代,更新相对比较稀疏,所以是 batch。
▲ Figure 1 of Scaling Laws for Reward Model Overoptimization.
Offline dataset
Online dataset
2.3 在线探索策略设计
最开始的 offline data 对我们的目标至少有一定的覆盖,使得在初始阶段我们的策略是真的在朝向 改进; 基于第一个条件,改进的 才能带来更好的覆盖,从而形成正向循环。
我们直观解释一下这个选择:
首先,第一个策略仍然是基于历史所有数据跑个 dpo 或者 rlhf 的数据,某种意义上是基于数据我们能做的 best-guess; 关键在于第二个策略的选择,它需要去最大化它与策略 1 的 feature difference 对应的不确定性。换句话说,如果基于历史,我对这个方向仍然数据很少,没有太多信息,我就应当往这个方向多采一些数据来鼓励探索。
很遗憾的是,在线性情形之外,不确定性的估计没有具体的形式,如何在一般的神经网络里做不确定性的估计仍然是一个 open problem。但是我们至少可以原则上对这个理论结果进行分析:
我们的探索策略应该是 ,the best policy we can get given the history,的变种,这体现的是对历史数据信息的利用; 同时,我们的两个策略应该在保证第一点的情况下,尽可能区分开来,使得他们的 difference 比较大,这样能带来比较好的 diversity 与探索。
使用训练 中不同 training step 的模型变种; 使用不同的采样温度参数。
讨论
▲ https://arxiv.org/html/2402.04792v1
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
微信扫码关注该文公众号作者