Bendi新闻
>
大语言模型对齐的四种方法!
大语言模型对齐的四种方法!
6月前
RLHF
https://arxiv.org/abs/2203.02155
• 预训练一个语言模型LM • 根据问答数据训练一个奖励模型RM • 使用强化学习RL的方式微调LM
1.预训练语言模型
2. 训练奖励模型
3.用强化学习微调
RRHF
https://arxiv.org/abs/2210.11416
• SFT:SFT相当于RRHF的可选择响应的数量为1,相当于直接进行微调 • Reward Model:RRHF本质上就是在训练一个RM,只不过通过训练LM的方式来训练,之前的RM都是通过CLS或者EOS来获取排序信息。 • PPO:在训练的时候,PPO的样本随着模型的训练进行采样,而RRHF的样本都是在训练之前采集的。RRHF的训练目标是学习排序,而PPO是直接学习分数。
FLAN
https://arxiv.org/abs/2210.11416
• 多任务微调能够比未微调的效果要好,并且随着任务数量的增加,模型的性能也越好。 • 其中282的多任务微调能够带来显著的提升,再增加任务数量,模型的性能趋近于饱和。一种解释是,多任务微调的收益大部分来自于模型学习更好的表达它从预训练中学习到的知识。这一点也可以从训练的token数量看出来(预训练:指令微调=780B:1.4B) • 随着模型规模的增加,模型的性能也越好。
• 左边的图,加入CoT的数据能够有效的提升模型在CoT任务上的表现,而只在non-CoT的数据上进行训练会导致模型丧失CoT的能力。 • 右边的图,只加入CoT的数据不会影响在non-CoT任务上的表现。
DPO
https://arxiv.org/abs/2305.18290
1. 在ref model上采样y1和y2,构建偏好数据集 D={x{i},yw{i},yl{i}}i=1N 2. 在给定的数据集 D,πref,β 的基础上优化语言模型 πθ 。在实际训练的时候,通常使用已经存在的偏好数据集,而不是直接生成样本并收集人类偏好。如果 πsft 可获取,就将其看作 πref ,否则的话,则需要在最大化最优问答对(x,yw)的似然来初始化 πref 。
• DPO能够多大程度上优化RLHF目标?
• DPO能够扩展到真实的偏好数据集上吗?
微信扫码关注该文公众号作者
来源:机器学习算法与自然语言处理
相关新闻
ACL 2024 | 大语言模型的安全对齐会适得其反?无需训练便能逆转安全对齐ACL 2024 | 多目标直接偏好优化MODPO:大语言模型的多目标对齐人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈揭秘Sora:用大语言模型的方法理解视频,实现了对物理世界的“涌现”简单好用!北大、普林斯顿联合提出即插即用的大语言模型加速方法推特热帖:大语言模型自荐能够替代的20种人类工作!快来看你是否需要转行!阿里音频生成大模型一次发俩还开源!50种语言快速理解+5种语言语音生成,带情感的那种ICML 2024 | 探究知识编辑对大语言模型的近邻扰动NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)WWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型三个方面浅析数据对大语言模型的影响大语言模型的32种消除幻觉的技术,你都了解吗?FuseLLM:大语言模型的知识融合!今日arXiv最热NLP大模型论文:对指令太敏感?山东大学提出一致性对齐法,治好大模型敏感体质!上海AI lab开源LLaMAX,用3.5万小时的A100训练让大模型掌握上百种语言翻译这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单无需训练实现价值观实时动态对齐:上交开源价值观对齐方法,闭源与开源大模型均适用今日arXiv最热大模型论文:Agent也疯狂!FoA方法对智能体做树结构搜索,超越ToT总结!大模型微调(Fine-Tuning)的常见方法无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用国产「GPTs」上线!全面对标 OpenAI 的智谱发布大模型,性能逼近 GPT-4小模型狂飙!6家巨头争相发布小模型,Andrej Karpathy:大语言模型的尺寸竞争正在倒退...无需人类或GPT-4打标签!南大&旷视研究院无监督范式大幅降低视觉大模型对齐成本万字干货!手把手教你如何训练超大规模集群下的大语言模型