Bendi新闻
>
人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈
人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈
7月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
论文标题:Self-Play Preference Optimization for Language Model Alignment 论文链接:https://arxiv.org/pdf/2405.00675.pdf
图1.基于Bradley-Terry模型的迭代优化方法缺乏理论理解和保证
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
ICML 2024 Spotlight | 在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好复旦发布层次性奖励学习框架,增强大模型人类偏好对齐无需人类或GPT-4打标签!南大&旷视研究院无监督范式大幅降低视觉大模型对齐成本奥特曼谈AI的机遇、挑战与人类自我反思:中国将拥有独特的大语言模型ECCV 2024:北大提出多模态提示学习:让大模型更懂人类在做什么!清华系细胞大模型登Nature子刊!能对人类2万基因同时建模,代码已开源CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度OpenAI组建「集体对齐」新团队,确保AI模型与人类价值观保持一致!最新研究:大模型已涌现出欺骗能力!钻漏洞、偷偷篡改奖励函数,GPT-4欺骗人类高达99.16%推特热帖:大语言模型自荐能够替代的20种人类工作!快来看你是否需要转行!AI 教母对话 ChatGPT 之母:大模型具备说服、影响人类甚至控制整个社会的危险能力模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分AI完败于人类医生!研究发现:大模型临床决策草率且不安全,最低正确率仅13%港大和字节提出Groma:多模态大模型新范式!模拟人类先感知后认知,精确定位图中物体!OpenAI“最后一篇”超级对齐论文发布:大小模型相互博弈,输出可读性up开源AGI智能体人人可养成:AGI对齐新思路,让智能体在人类世界中接受训练今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜打破奥数天花板!DeepMind最新AI数学大模型,能以人类金牌水平解决几何题AI抢攻人类奥赛金牌!DeepMind数学模型做对25道IMO几何题,GPT-4惨败得0分70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024ICML 2024爆火演讲!Meta等揭秘大模型内心世界:不同于人类的2级推理面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70BICML 2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类的2级推理DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源