Bendi新闻
>
ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!
ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!
4月前
新智元报道
新智元报道
【新智元导读】RLHF到底是不是强化学习?最近,AI大佬圈因为这个讨论炸锅了。和LeCun同为质疑派的Karpathy表示:比起那种让AlphaGo在围棋中击败人类的强化学习,RLHF还差得远呢。
昨天,Andrej Karpathy又发了长推,不过用了一句很有争议的话开头——「RLHF只是勉强的RL」。
这条推特可谓「一石激起千层浪」,瞬间点燃了LLM社区的讨论热情。
毕竟RLHF作为刚提出没几年的方法,又新颖又有争议。一边遭受质疑,一边又在工业界和学界迅速流行。
5G冲浪的LeCun也赶来声援Karpathy,但他的话很短,只有一句——「RLHF不是真正的RL」。
RLHF最早可以追溯到OpenAI安全团队2017年发表的论文:
论文地址:https://arxiv.org/abs/1706.03741
当时,Jan Leike还在DeepMind、Dario Amodei还没创办Anthropic,而OpenAI还没all in语言模型,仍是一家研究范围更广泛的AI公司。
他们提出,通过人类反馈,让AI模型更好地学习「如何翻出一个漂亮的后空翻」。
强化学习到底是什么
基本思想是,一个正在学习的agent与环境交互,如何捕捉到它面临的最重要的实际问题。 显然,这样的agent必须能够在某种程度上感知环境状态,且必须能够采取某种行动以影响状态。agent也必须有关于环境状态的目标。这一表述旨在包含三个方面:感知、行动和目标,以可行的最简洁的形式,而不会让任何一个方面只有平凡解。 任何适于解决这类问题的方法,我们都认为是强化学习方法。
策略(policy),定义正在学习的agent在指定时间的行为 奖励信号(reward signal),定义强化学习问题的目标,是对agent行为的即时反馈 值函数(value function),定义长期的优化目标 环境模型(model of the enviroment),模拟环境行为
谁赞同,谁反对?
完全同意。我认为RLHF更像是行为(action)值是字符串的上下文多臂赌博机,其中提示词作为上下文,而不是完整的强化学习。但为日常任务制定明确的奖励机制是困难的部分。(我想这被称为「模型对齐」?)
同意,很棒的总结。就其提供的价值而言,下面是我最喜欢的引用,说明了RLHF的「风格」部分为何有用。 但这与为LLM解锁完整版本的RL相比,仍然微不足道。
RLHF勉强算是 RL,但 - 它仍然使RL比以往任何时候都更重要,并且 - RLHF可能比至今为止其他的RL更有影响力
我的主要动机是想说,LLM远未达到原则上所能达到的高度,它们还没有像其他最近/流行的ASI演示那样有相同的训练方式。我想要直观地指出这种差距的根源。
当模型已经非常优秀时,RLHF是有帮助的,你只需通过收集用户反馈来「修补问题」。 RL对于推理和规划等更复杂的任务确实很重要,把LLM放到RL循环中有助于泛化和「热启动」RL。
我是一名科学家,致力于为智能体创建更好的奖励模型,我不同意这篇推文的主要观点。使用你无法完全信任的奖励进行的RL也是RL,而且我认为这正是我们应该研究的RL。 是的,毫无疑问,当奖励明确定义时,RL能够最大程度地发挥作用。比如围棋中的获胜条件,就是明确的!我们不在乎智能体如何获胜,只要它符合游戏规则即可。这些规则非常简单,可以由人类直接编码到智能体的设计中,或者智能体通过计算推断出来。 但是如果对于一个复杂任务,不仅仅是「做什么」重要,而是「怎么做」也很重要呢?「怎么做」往往不像在围棋中要求智能体下有效棋步那样容易实现。对于人类来说,这通常来自于人类的常识、期望或荣誉。LLM的对齐正是通过RLHF来提取这种「怎么做」。 这也可以延伸到那些看似容易定义明确目标的(智能体)任务。想要一个好的电子游戏中的NPC?可以试试正式定义一个你可以100%信任的「乐趣」的概念,祝你好运。想要一个好的网络智能体?试试正式定义一个你可以100%信任的「预期行为」的概念,祝你好运。想要一个好的分子?定义一个你可以100%信任的「毒性」的概念,祝你好运。 AI智能体旨在做对人类有益的事情。人类不仅有内部多样性,而且极其复杂,显然超出了我们能够完全理解的范围。我可以编写一个我认为是「在NetHack游戏中实现这个目标」的代码,然后发现我对「实现」的理解比智能体的定义更为细致,就像我们最近在Motif上的工作中所做的那样。 我认为追求「完美奖励」的雄心是无望的,我不认为大多数我们希望智能体表现出的行为存在这样的概念。然而,我认为有一些方法有望在奖励不完美的情况下实际提高RL的性能: - 尽可能活跃的反馈循环,以优化智能体的奖励函数 - 对错误奖励更稳健的RL机制 - 减少人类与AI合作的摩擦 不过,我同意推文标题所说的,RLHF在用于微调LLM时几乎不能算是RL。但对我来说,这主要是因为它的半离线性质,以及智能体缺乏主动收集自身数据的机会。这些可能是RL在处理模糊、复杂,以及潜在可被利用的奖励函数时奏效的关键因素。
这是一个不好的看法。在与人类互动时,给出人类喜欢的答案就是真正的目标。
超出分布不是RLHF独有的问题。数据集中的人类反馈比运行无限的围棋模拟更有限,但这并不意味着是不值得研究的方法,它只是一个更具挑战性的问题,并且我们希望它是一个更有影响力的问题,因为减少LLM的偏见对人类的益处显然多过比在围棋上击败人类。使用贬义语言称RM为「直觉判断」是愚蠢的;你可以对价值估计提出同样的论点。
发布这样的内容只会阻碍人们研究RLHF,而目前这是唯一可行的方法来缓解LLM偏见和幻觉可能造成的严重危害。
微信扫码关注该文公众号作者
来源:新智元
相关新闻
法规红利启动!AEB前装搭载率攀升,哪些头部车企「拖后腿」?不想给孩子的身高“拖后腿”!钙含量惊人的王炸组合,隔2天就来一顿“靠ChatGPT开挂了!”某三甲主治医生连发3篇SCI!事情曝光后差点被举报……战事升级!地平线联手大众“秀”SuperDrive,高阶智驾第一梯队稳了?Kimi一度火到宕机!“90”后创始人、清华“学霸”杨植麟套现数千万美金?最新回应:不实“老虎”敛财上亿,被判无期!他做市委书记时“打卡式”调研:专车开道,“握手、说话、拍照”后就走近期搭飞机注意!上厕所怕脏?里面“暗藏机关” 不用手就能开垃圾桶地磁暴引起“互联网末日”?全网慌了!上百辆拖拉机开入伦敦抗议!美联储官宣“终结、加息”!“三月大戏”即将上演?SpaceX变“后宫”?马斯克与公司48人发生关系!露X、强迫生娃、短信轰炸!偷完更穷了!小偷闯入穷酸店后“绝望摊手”:怎么能这么穷?“我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?加拿大各地纷纷出现“随意付款”超市、餐馆!想付多少钱都行!专家质疑:能开下去吗?做了2万款手游后,小游戏大佬豪斥40亿元、“掀桌子”闹革命!惊呆了!华人大妈半夜开豪车就为偷花!花圃被挖个大洞、一套下来行云流水!网友吐槽“要不人能开豪车呢?”美联航“又狂砍航班”?别被误导了!但买错票|买贵票的各位,你们的机会来了~3月后的票,有个小秘密~人死后也要交税?新州将开征“安葬服务税”,7月1日生效!被中国“领养”后,美国穷小子逆袭成斯坦福学霸,为报恩倾尽430万家产修古宅、开民宿、搞教育,带云南村民发家致富,引央视疯狂点赞!两次击败那英!精通英、法、阿3国语言:天赋异禀的00后计算机学霸,是怎样“炼”成的?泡芙白鹅绒服、毛呢阔腿裤、施华洛世奇珍珠、“见龙行运”、武夷山大红袍、赫莲娜黑绷带、祖玛珑腕表、手写信,1折起!新鲜福利来报到!美国零售业被“血洗”?!开年就关了2600家门店!涉及各类行业...最新报告!澳洲人全球第2有钱!人均财富高达这个数!你拖后腿了?零就业保障、全天精神“酷刑”!ChatGPT 类产品背后 80% 贡献者,时薪 1.16 美元,但也没得选零就业保障、全天精神“酷刑”!ChatGPT类产品背后80%贡献者,时薪1.16美元,但也没得选