Bendi新闻
>
模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

8月前
机器之心专栏

机器之心编辑部


在目前的模型训练范式中,偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中,偏好数据通常被用作对齐(alignment)时的训练优化目标,如基于人类或 AI 反馈的强化学习(RLHF/RLAIF)或者直接偏好优化(DPO),而在模型评估中,由于任务的复杂性且通常没有标准答案,则通常直接以人类标注者或高性能大模型(LLM-as-a-Judge)的偏好标注作为评判标准。


尽管上述对偏好数据的应用已经取得了广泛的成效,但对偏好本身则缺乏充足的研究,这很大程度上阻碍了对更可信 AI 系统的构建。为此,上海交通大学生成式人工智能实验室(GAIR)发布了一项新研究成果,对人类用户与多达 32 种流行的大语言模型所展现出的偏好进行了系统性的全面解析,以了解不同来源的偏好数据是如何由各种预定义属性(如无害,幽默,承认局限性等)定量组成的。


进行的分析有如下特点:


  • 注重真实应用:研究中采用的数据均来源于真实的用户 - 模型对话,更能反映实际应用中的偏好。

  • 分场景建模:对属于不同场景下的数据(如日常交流,创意写作)独立进行建模分析,避免了不同场景之间的互相影响,结论更清晰可靠。

  • 统一框架:采用了一个统一的框架解析人类与大模型的偏好,并且具有良好的可扩展性。


该研究发现:


  • 人类用户对模型回复中错误之处的敏感度较低,对承认自身局限导致拒绝回答的情况有明显的厌恶,且偏好那些支持他们主观立场的回复。而像 GPT-4-Turbo 这样的高级大模型则更偏好于那些没有错误,表达清晰且安全无害的回复。

  • 尺寸接近的大模型会展现出相似的偏好,而大模型对齐微调前后几乎不会改变其偏好组成,仅仅会改变其表达偏好的强度。

  • 基于偏好的评估可以被有意地操纵。鼓励待测模型以评估者喜欢的属性进行回复可以提高得分,而注入最不受欢迎的属性则会降低得分。


图 1:人类,GPT-4-Turbo 与 LLaMA-2-70B-Chat 在 “日常交流” 场景下的偏好解析结果,数值越大代表越偏好该属性,而小于 50 则表示对该属性的厌恶。


本项目已经开源了丰富的内容与资源:


  • 可交互式演示:包含了所有分析的可视化及更多论文中未详尽展示的细致结果,同时也支持上传新的模型偏好以进行定量分析。

  • 数据集:包含了本研究中所收集的用户 - 模型成对对话数据,包括来自真实用户以及多达 32 个大模型的偏好标签,以及针对所定义属性的详细标注。

  • 代码:提供了收集数据所采用的自动标注框架及其使用说明,此外也包括了用于可视化分析结果的代码。



  • 论文:https://arxiv.org/abs/2402.11296

  • 演示:https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization

  • 代码:https://github.com/GAIR-NLP/Preference-Dissection

  • 数据集:https://huggingface.co/datasets/GAIR/preference-dissection


方法介绍


该研究收集了来自 ChatbotArena Conversations 数据集中大量来自真实应用中的成对用户 - 模型对话数据。每个样本点由一个用户问询与两个不同的模型回复组成。研究者们首先收集了人类用户与不同大模型在这些样本上的偏好标签,其中人类用户的标签已经包含在所选用的原始数据集内,而 32 个选用的开源或闭源的大模型的标签则由研究者额外进行推理与收集。


该研究首先构建了一套基于 GPT-4-Turbo 的自动标注框架,为所有的模型回复标注了它们在预先定义的 29 个属性上的得分,随后基于一对得分的比较结果可以得到样本点在每个属性上的 “比较特征”,例如回复 A 的无害性得分高于回复 B,则该属性的比较特征为 + 1,反之则为 - 1,相同时为 0。


利用所构建的比较特征与收集到的二元偏好标签,研究者们可以通过拟合贝叶斯线性回归模型的方式,以建模比较特征到偏好标签之间的映射关系,而拟合得到的模型中对应于每个属性的模型权重即可被视作该属性对于总体偏好的贡献程度。


由于该研究收集了多种不同来源的偏好标签,并进行了分场景的建模,因而在每个场景下,对于每个来源(人类或特定大模型),都能够得到一组偏好到属性的定量分解结果。


图 2:分析框架的总体流程示意图


分析结果


该研究首先分析比较了人类用户与以 GPT-4-Turbo 代表的高性能大模型在不同场景下最偏好与最不偏好的三个属性。可以看出,人类对错误的敏感程度显著低于 GPT-4-Turbo,且厌恶承认局限性而拒绝回答的情形。此外,人类也对迎合自己主观立场的回复表现出明显的偏好,而并不关心回复中是否纠正了问询中潜在的错误。与之相反,GPT-4-Turbo 则更注重回复的正确性,无害性与表达的清晰程度,并且致力于对问询中的模糊之处进行澄清。


图 3:人类与 GPT-4-Turbo 在不同场景或问询满足的前提下最偏好与最不偏好的三个属性


图 4:人类与 GPT-4-Turbo 对于轻微 / 适中 / 严重程度的错误的敏感程度,值接近 50 代表不敏感。


此外,该研究还探索了不同大模型之间的偏好组分的相似程度。通过将大模型划分为不同组并分别计算组内相似度与组间相似度,可以发现当按照参数量(<14B 或 > 30B)进行划分时,组内相似度(0.83,0.88)明显高于组间相似度(0.74),而按照其他因素划分时则没有类似的现象,表明大模型的偏好很大程度上决定于其尺寸,而与训练方式无关。


图 5:不同大模型(包括人类)之间偏好的相似程度,按参数量排列。


另一方面,该研究也发现经过对齐微调后的大模型表现出的偏好与仅经过预训练的版本几乎一致,而变化仅发生在表达偏好的强度上,即对齐后的模型输出两个回复对应候选词 A 与 B 的概率差值会显著增加。


图 6:大模型在对齐微调前后的偏好变化情况


最后,该研究发现,通过将人类或大模型的偏好定量分解到不同的属性,可以对基于偏好的评估结果进行有意地操纵。在目前流行的 AlpacaEval 2.0 与 MT-Bench 数据集上,通过非训练(设置系统信息)与训练(DPO)的方式注入评估者(人类或大模型)的偏好的属性均可显著提升分数,而注入不受偏好的属性则会降低得分。


图 7:对 MT-Bench 与 AlpacaEval 2.0 两个基于偏好评估的数据集进行有意操纵的结果


总结


本研究详细分析了人类和大模型偏好的量化分解。研究团队发现人类更倾向于直接回答问题的回应,对错误不太敏感;而高性能大模型则更重视正确性、清晰性和无害性。研究还表明,模型大小是影响偏好组分的一个关键因素,而对其微调则影响不大。此外,该研究展示了当前若干数据集在了解评估者的偏好组分后易被操纵,表明了基于偏好评估的不足。研究团队还公开了所有研究资源,以支持未来的进一步研究。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

来源:机器之心

相关新闻

选股确率高达60%?大模型与财务报表的双向奔赴大语言模型的32种消除幻觉的技术,你都了解吗?上海交大林云:揭秘大模型的可解释性与透明度,AI 编程的未来在这里!LangChain与Semantic Kernel,大模型开发应用的框架,都用上了吗?大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」场景融合与 ROI 考量:金融大模型落地的两大困境有解吗?2024年高考陆续出分:今天的大模型,能考上几本?|亮马桥小纪严选万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化大模型如何用因果性?最新《大型语言模型与因果推断在协作中的应用》全面综述奥特曼谈AI的机遇、挑战与人类自我反思:中国将拥有独特的大语言模型复旦发布层次性奖励学习框架,增强大模型人类偏好对齐深度解码:AI 大模型的繁荣与困境 | Q福利从 CLM 启航:中国大模型的探索与未来国产大模型的经验与教训深圳本周六:100位产品人与AI大模型的深度对话,4位实战专家现场剖析产品经理的新战场国产算力训练大模型的经验与教训李丰对话连文昭:大模型的想象与泡沫,机器人的「不可能三角」与未来 | 峰瑞创投对话微软中国CTO韦青:亲身经历大模型落地的体会与思考一场关乎大模型起源与未来的对谈大Batch训练大语言模型的探索与实践大模型降价背后的真相与「猫腻」大模型与具身智能的火花,ICML 2024 MFM-EAI Workshop征稿和挑战赛启动大模型如何用于游戏?游戏玩家代理与大模型综述:方法、应用与挑战探讨大模型预训练与微调之间的相互作用
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。