Bendi新闻
>
ICML 2024 Oral | DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘
ICML 2024 Oral | DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘
5月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
论文标题:Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study 论文地址:https://arxiv.org/pdf/2404.10719
使用大的批大小(large batch size) 优势归一化(advantage normalization) 以及对 reference model 使用指数移动平均进行更新(exponential moving average for the reference model)。
NeurIPS 2022 The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games [1]:提出并开源了用于多智能体的强化学习并行训练框架 MAPPO,支持合作场景下的多智能体训练,该工作被大量多智能体领域工作采用,目前论文引用量已超过 1k。 ICLR 2024 Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [2]: 提出了用于强化学习的分布式训练框架,可轻松扩展至上万个核心,加速比超越 OpenAI 的大规模强化学习系统 Rapid。 ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation [3]: 最近,吴翼团队进一步实现了分布式 RLHF 训练框架 ReaLHF。吴翼团队的 ICML Oral 论文正是基于 ReaLHF 系统产出的。ReaLHF 系统经过长时间的开发,经历大量的细节打磨,达到最优性能。相比于之前的开源工作,ReaLHF 可以在 RLHF 这个比预训练更复杂的场景下达到近乎线性的拓展性,同时具有更高的资源利用率,在 128 块 A100 GPU 上也能稳定快速地进行 RLHF 训练,相关工作已开源:https://github.com/openpsi-project/ReaLHF
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
识别细胞也能用大模型了!清华系团队出品,已入选ICML 2024 | 开源最新! 谷歌清华夫妇命案知情人士揭秘, 友人透露早已感觉不对【最新】谷歌清华夫妻命案后续,友人已预感不妙,知情人揭秘内幕...【最新】谷歌清华夫妻命案后续,友人已预感不妙,知情人揭秘...最新!谷歌清华夫妻命案后续,友人已预感不妙,知情人揭秘...ICML 2024 | 清华提出DecisionNCE,用多模态表征预训练加速具身智能可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术GPT-4o 17人Omni金牌团队首揭秘!清北上交中科大6位华人领衔知情人揭秘...谷歌清华夫妻命案后续,友人已预感不妙……这不公平!摆烂休息之后,还比从前更强?揭秘这个「健身作弊原理」WLSA副校长揭秘英美双申;清华&芝大导师总结标化【满分秘籍】,还有夏校爬藤专家、香港DSE名师等做客直播间!ICML 2024爆火演讲!Meta等揭秘大模型内心世界:不同于人类的2级推理国产 Sora 的秘密,藏在这个清华系大模型团队中LLM巫师,代码预训练是魔杖!UIUC华人团队揭秘代码数据三大好处ACL 2024 Oral | 大模型也会被忽悠?揭秘AI的信念之旅ICML 2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类的2级推理AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024大反转!女生被活活打死!谷歌清华夫妻命案后续,友人已预感不妙,知情人揭秘...恒星的诞生 | 揭秘华为超聚光伸缩摄像头7张PPT,揭秘华为的“人工智能路线图”数字黄金的崛起:揭秘比特币的投资潜力Sora幕后团队揭秘:4位华人,印度裔小哥“牵头”,还有高中就创业的00后..揭秘2024年可能大热的4种房产类型!