Bendi新闻
>
仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了
仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了
6月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
论文地址:https://arxiv.org/pdf/2405.07863 奖励模型 / 偏好模型建模: https://github.com/RLHFlow/RLHF-Reward-Modeling 迭代 RLHF: https://github.com/RLHFlow/Online-RLHF Huggingface RLFlow: https://huggingface.co/RLHFlow
离线偏好数据集收集:首先随机采样一个 prompt,并使用 SFT 模型以及更加强大的语言模型 (GPT-4, Claude, LLaMA2-Chat-70B) 收集两个回复,最后让人类 / GPT-4 标注其更喜欢的回复; 在离线数据集上使用 DPO/Slic/IPO 等损失函数进行有监督学习。
模型选择:首先依据历史数据对模型进行训练,从而得到两个模型; 数据收集:对每条 prompt, 用两个模型采样 2 条回复,并让外部偏好模型进行标注,总共收集 m 个偏好数据对加入历史数据集中。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
首个WebAgent在线评测框架和流程数据管理平台来了,GPT-4、Qwen登顶闭源和开源榜首!最懂打工人的AI特助万知来了,李开复在线催更!2分钟手机直出PPT效率×10击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了复刻Sora的通用视频生成能力,开源多智能体框架Mora来了GLM-4开源版本终于来了:超越Llama3,多模态比肩GPT4V,MaaS平台也大升级Meta无限长文本大模型来了:参数仅7B,已开源苹果开源大模型OpenELM来了,或将用在下一代iPhone上;红杉入局,传马斯克AI公司将获60亿美元投资丨AI周报对话林咏华:刚在“AI春晚”上开源了3.4T数据集的智源,是如何死磕大模型数据难题的最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍它来了!“不止有光”锐捷极简以太全光3.X解决方案发布会邀您线上参与!苹果开源7B大模型,训练过程数据集一口气全给了,网友:开放得不像苹果别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元福利来了!京东 X 新欧洲强势出击!全场回国价+包邮!仅一周没有等来OpenAI开源GPT-4o,等来了开源版VITAPython和AI可以在线学习了!豪华MPV领域完备的混动解决方案来了!大家9、大家7超混技术北京车展全球首发,预订价19.99万元起华为“乾崑”智能汽车解决方案来了!一口气连发十款新品,年底目标上车50万辆...零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新[家庭教育指导服务讲师]在线培训来了!大模型又开“卷”!万亿参数闭源模型、四千亿开源模型来了多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了在澳洲离婚,实在太麻烦!最全详解来了,在澳洲办理离婚,你需要知道这些事...30 多年前被 Linux、Windows “ 灭掉 ” 的操作系统 MS-DOS 4.0,微软在 GitHub 上开源了