国际科技财经移民娱乐民生时事体育

大语言模型对齐的四种方法！

8月前

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 知乎

作者 | Asukka，北京邮电大学 AI院在读研究生

编辑 | 青稞AI

语言模型的对齐在20年就有相关工作，22年谷歌提出基于指令微调的Flan，Openai则提出InstructGPT，ChatGPT，大模型的对齐工作受到广泛的关注。

目前，大模型的对齐工作中，RLHF算法是能够达到最优的结果，RLHF通过人类反馈和PPO算法，能够有效的将模型和人类偏好进行对齐。但是RLHF也存在难以训练，训练显存占用较大的缺点。基于此，相关研究工作(RRHF, DPO)等也逐渐被提出，希望能够在较小的显存占用的情况下，实现对齐的工作。本文主要总结RLHF，RRHF，DPO，Flan的相关对齐工作。

RLHF

RLHF是InstructGPT和ChatGPT的训练方法，关于RLHF的介绍，主要参考InstructGPT和huggingface的博客。

https://arxiv.org/abs/2203.02155

在RLHF出现之前，LLM存在着各种依赖输入提示prompt生成多样化文本，但是对于生成结果的难以进行评估。比如模型生成故事，文本，或者代码片段，这些生成结果难以通过现有的基于规则的文本生成指标(BLEU和ROUGE指标)来进行衡量。除了上述的评估指标，现在的模型通常通过预测下一个token的形式和简单的损失函数比如交叉熵损失函数来进行建模，没有显示的引入人的偏好和主观意见。

因此OpenAI提出使用生成文本的人工反馈作为性能衡量指标，或者进一步用该损失来优化模型，也即RLHF的思想：使用强化学习的方式直接优化带有人类反馈的语言模型。

RLHF的三个阶段

• 预训练一个语言模型LM
• 根据问答数据训练一个奖励模型RM
• 使用强化学习RL的方式微调LM

1.预训练语言模型

使用经典的预测下一个token的自回归方式预训练一个语言模型。OpenAI选择InstructGPT。基于预训练得到的LM，生成训练奖励模型(RM，也叫偏好模型)的数据。

2. 训练奖励模型

RM模型接受一系列文本并返回一个标量奖励，数值上对应人的偏好。可以直接使用端到端的方式进行建模(直接让RM输出分数)，也可以进行模块化的建模(对输出进行排名，再将排名转化为奖励)。

对于RM模型的选择方面，RM可以是另一个经过微调的LM，也可是根据偏好数据从头开始训练的LM。比如Anthropic提出的偏好模型预训练(Preference Model Pretraining, PMP)来替换一般预训练后的微调过程。因为前者被认为对样本数据的利用率更高。

对于训练文本方面，RM的提示-生成对文本是从预定义的数据集中采样生成的，并用初始的LM对这些提示生成文本。OpenAI采用用户提交给GPT API的prompt。

对于训练奖励数值方面，这里需要人工对LM生成的回答进行排名。对文本直接标注分数会很容易受到主观因素的影响，通过排名可以比较多个模型的输出并构建更好的规范数据集。

对于具体的排名方式，使用Elo系统建立一个完整的排名。这些不同的排名结果将被归一化为用于训练的标量奖励值。

RM模型和生成模型的规模不一定一样，比如OpenAI就采用了6B的RM和175B的LM。不过一种广泛认可的直觉就是，偏好模型和生成模型需要具有类似的能力来理解提供给他们的文本。

3.用强化学习微调

之前由于工程和算法原因，人们认为使用强化学习训练LM是不可能的。而目前的可行方案是使用策略梯度强化学习(Policy Gradient RL)算法，近端策略梯度优化(Proximal Policy Optimization, PPO)微调初始的LM的部分或者全部参数。

将微调任务表述为RL问题。该策略(policy)是一个接受提示并返回一系列文本或者文本的概率分布的LM。策略的行动空间(action space)是LM的词表对应的所有词元(一般在50k的数量级)，观察空间(observation space)是可能的输入词元序列(词汇量^输入token的数量)，奖励函数是偏好模型哦那个i和策略转变约束(Policy shift constraint)的结合。

PPO算法的奖励函数计算如下：将提示x输入到初始LM和当前微调的LM，分别得到输出文本y1和y2。将来自当前策略的文本传递给RM得到一个标量的奖励 rθ。将两个模型的生成文本进行比较计算差异的惩罚项(输出词分布序列之间的KL散度的缩放)， r=rθ−λrKL 。这一项被用于惩罚RL策略在每个训练批次中生成大幅偏离初始模型，以确保模型输出合理连贯的文本。如果去掉这一个惩罚项可能导致模型在优化中生成乱码文本来愚弄模型提供高奖励值。

PPO中的损失函数如上所示，对于第一个RL分布，计算奖励分数和KL损失约束，KL损失约束可以防止actor model偏离原始的ref model太远，保证生成的多样性，并防止模型崩溃到单个高奖励答案。其中对于第二个预训练分布，将预训练的时候梯度和RL的梯度混合。

RRHF
https://arxiv.org/abs/2210.11416

RLHF需要三阶段的训练：SFT，RM，PPO。但PPO对超参数比较敏感，并且RLHF在训练阶段需要四个模型，因此RLHF的方法难以训练。因此本文作者提出RRHF，通过对来自不同来源的响应(自身的模型响应，其他大型语言模型响应和人类专家响应)进行打分，并通过排序损失函数使得这些概率和人类偏好保持一致。RRHF只需要1-2个模型，并且不需要复杂的调优，可以看作是SFT和RM模型训练的一个扩展。RRHF在helpful和harmless数据集上进行测试，表明和PPO一致的性能。

RRHF的优化目标是基于响应概率的对数损失。

RRHF首先搜集到各种响应信息(模型自身产生，GPT产生，已经存在的人类标注)。RRHF随后在各种相应上进行训练，输出响应概率，并进行排序，随后利用rank loss进行排序优化。

与RLHF相比，PPO采用advantage function来估计状态-动作对与基线相比是更好还是更差，并提供优化信号，RRHF不需要和基线进行对比，只需要依照排序信息进行优化。PPO需要采用KL散度来保证actor model和ref model不会差的太远，而RRHF在训练之前只使用模型本身进行采样，因此RRHF只需要1-2个模型。RRHF的损失函数主要有两个，一个是针对RM的得分排名损失函数，一个是针对得分最高的分数，计算对数损失函数，因此RRHF本质上是一个选择best-of-n的过程。

RRHF和之前工作的联系

• SFT：SFT相当于RRHF的可选择响应的数量为1，相当于直接进行微调
• Reward Model：RRHF本质上就是在训练一个RM，只不过通过训练LM的方式来训练，之前的RM都是通过CLS或者EOS来获取排序信息。
• PPO：在训练的时候，PPO的样本随着模型的训练进行采样，而RRHF的样本都是在训练之前采集的。RRHF的训练目标是学习排序，而PPO是直接学习分数。

FLAN
https://arxiv.org/abs/2210.11416

这篇论文是ChatGPT之前做的比较好的对齐工作，其核心思想就是探究增加数据集的规模，增加模型的大小，增加COT的数据对于模型的性能和泛化能力的影响。

其实验结果从下面两张图可以看出

• 多任务微调能够比未微调的效果要好，并且随着任务数量的增加，模型的性能也越好。
• 其中282的多任务微调能够带来显著的提升，再增加任务数量，模型的性能趋近于饱和。一种解释是，多任务微调的收益大部分来自于模型学习更好的表达它从预训练中学习到的知识。这一点也可以从训练的token数量看出来(预训练:指令微调=780B:1.4B)
• 随着模型规模的增加，模型的性能也越好。

下面一张图是探究CoT数据对于LM在推理任务和其他任务上的性能变化。

• 左边的图，加入CoT的数据能够有效的提升模型在CoT任务上的表现，而只在non-CoT的数据上进行训练会导致模型丧失CoT的能力。
• 右边的图，只加入CoT的数据不会影响在non-CoT任务上的表现。

DPO
https://arxiv.org/abs/2305.18290

与RRHF中所提到的一样，RLHF需要超参数以及四个模型，本文提出新的范式，支持以封闭的形式提取响应的最优策略，只需要简单的分类损失就可以解决标准的RLHF问题。DPO的流程如下所示，左边的是RLHF的流程，通过显式的构建RM来让模型学习到人类偏好，而DPO则是隐式的拟合RM模型。

DPO的损失函数如下所示

和RLHF的损失函数相比，省去了RM模型的显式打分，而是将打分的分值间接的通过差值表现出来，同时也将KL散度约束写到同一个损失当中。

DPO的整个流程线如下所示：

1. 在ref model上采样y1和y2，构建偏好数据集 D={x{i},yw{i},yl{i}}i=1N
2. 在给定的数据集 D,πref,β 的基础上优化语言模型 πθ 。在实际训练的时候，通常使用已经存在的偏好数据集，而不是直接生成样本并收集人类偏好。如果 πsft 可获取，就将其看作 πref ，否则的话，则需要在最大化最优问答对(x,yw)的似然来初始化 πref 。

然后就是DPO相比于RLHF的效果，作者在这里做了两个实验。

• DPO能够多大程度上优化RLHF目标?

左边的图展示了预期奖励和参考策略的KL边界。DPO在所有的KL约束值下都能拥有更高的奖励期望。

• DPO能够扩展到真实的偏好数据集上吗？

作者在摘要任务和单论对话任务上进行评估。上一个图的右侧展示在不同温度系数下，DPO和PPO在摘要任务上的胜率对比，DPO对温度系数更加鲁棒，并且效果更好。在单轮对话上，在Anthropic HH数据集上进行评估。DPO是唯一在Anthropic HH数据集上能够改善最优回答的高效方法，并且提供了与超高计算代价Best of 128基准相似或者更好的性能。