Bendi新闻
>
大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4
大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4
人工智能的反馈(AIF)要代替 RLHF 了?
论文标题:Self-Rewarding Language Models
论文链接:https://arxiv.org/abs/2401.10020
EFT 增强比 SFT 基线有所改进。使用 IFT+EFT 与单独使用 IFT 相比,所有五个测量指标都有所改进,例如,与人类的成对准确率一致性从 65.1% 提高到 78.7%。
通过自我训练提高奖励建模能力。进行一轮自我奖励训练后,模型为下一次迭代提供自我奖励的能力得到了提高,此外它的指令跟随能力也得到了提高。
LLMas-a-Judge 提示的重要性。研究者使用了各种提示格式发现,LLMas-a-Judge 提示在使用 SFT 基线时成对准确率更高。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜性能超越 GPT-4 Turbo!「商汤日日新」大升级,国产大模型超市开张了今日arXiv最热NLP大模型论文:超越GPT-4,清华发布网页导航智能体AutoWebGLM刚刚,这个全面超越 GPT-4 的大模型,正式推出了 iOS 应用 | 附下载链接贾佳亚团队新作:10k数据让大模型数学能力超GPT-4一张截图疯传,私募美女大佬貌似又被怼了:别让自己当炮灰了...OpenAI掌门人最新专访:GPT-4o让我爱不释手 下代大模型可能不叫GPT-5OpenAI掌门人:GPT-4.0让我爱不释手 下代大模型可能不叫GPT-5国产GPTs来了,基于智谱第4代大模型!模型性能均达GPT-4九成以上大模型开车哪家强?普渡研究给指南:GPT-4真行啊神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了Meta发布自我奖励机制,Llama在3轮训练后超越GPT-4字节跳动豆包大模型支持实时语音通话;阿里发布Qwen2-Math:数学推理全球第一,超越GPT-4o丨AIGC日报最新研究:大模型已涌现出欺骗能力!钻漏洞、偷偷篡改奖励函数,GPT-4欺骗人类高达99.16%苹果也发布了自己的大模型苹果也发布了自己的大模型,这是一件影响深远 的大事这个维州妹子太猛了!VCE考全校第一,就给自己整了个大的!实战了一个自己的大模型,跑通了 | 极客时间今日arXiv最热NLP大模型论文:GPT-4理解武林外传中的含蓄表述,达人类水平号称超越 GPT-4 的大模型们,有多少靠的是「抄袭」国产「GPTs」上线!全面对标 OpenAI 的智谱发布大模型,性能逼近 GPT-4从 0 到 1 构建了一个属于自己的大模型,跑通了 | 极客时间OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折