OpenAI构建AI以批判AI
点击蓝字 关注我们
SUBSCRIBE to US
ISTOCK
为ChatGPT等聊天机器人提供支持的大语言模型(https://spectrum.ieee.org/tag/large-language-models)的最大问题之一是,你永远不知道什么时候可以信任它们。他们可以对任何问题做出清晰而有说服力的回答,他们提供的许多信息都是准确和有用的。但它们也会产生幻觉——用不那么礼貌的话来说,它们会编造东西(https://spectrum.ieee.org/ai-hallucination)——这些幻觉以同样清晰而有说服力的散文呈现,让人类用户来检测错误。他们也是会阿谀奉承的(https://arxiv.org/pdf/2310.13548),试图告诉用户他们想听什么。你可以通过让ChatGPT描述从未发生过的事情来测试这一点(例如:“描述与Elon Musk的《芝麻街》一集”,或“告诉我小说《米德尔马契》中的斑马”),并检查其完全合理的回答。
OpenAI在解决这个问题方面迈出了最新的一小步,它以一种上游工具的形式出现,该工具将帮助训练模型的人类引导它走向真实和准确。近日,该公司发布了一篇博客文章(https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/)和一篇预印本论文(https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf),描述了这项工作。这种类型的研究属于“对齐”工作的范畴,因为研究人员正试图使人工智能系统的目标与人类的目标保持一致。
这项新工作的重点是从人类反馈中强化学习(RLHF,https://arxiv.org/abs/1706.03741),这项技术对于获取基本语言模型并对其进行微调,使其适合公开发布变得非常重要。借助RLHF,人类培训师可以评估来自语言模型的各种输出,这些输出都是针对同一问题生成的,并指出哪种响应是最好的。当大规模完成时,这种技术有助于创建更准确、更少种族主义、更礼貌、更不倾向于制定生物武器配方的模型,等等。
人工智能能抓住谎言中的人工智能吗?
OpenAI研究人员Nat McAleese解释说,RLHF的问题在于“随着模型变得越来越智能,这项工作变得越来越困难。随着LLM对从文学理论到分子生物学的所有方面都产生了越来越复杂和复杂的反应,典型的人类判断最佳输出的能力越来越弱。“因此,这意味着我们需要超越RLHF的东西来调整更先进的系统,”McAleese告诉IEEE Spectrum。
OpenAI给出的解决方案是——令人惊讶!——更多的 AI。
具体来说,OpenAI研究人员训练了一个名为CriticGPT的模型来评估ChatGPT的反应。在这些最初的测试中,他们只让ChatGPT生成计算机代码,而不是文本响应,因为错误更容易捕捉,也不那么模糊。目标是制作一个可以帮助人类完成RLHF任务的模型。“我们对此感到非常兴奋,”McAleese说,“因为如果你有人工智能帮助做出这些判断,你在提供反馈时能做出更好的判断,你就可以训练出更好的模型。这种方法是一种“可扩展的监督(https://arxiv.org/pdf/2211.03540)”,旨在让人类能够监视人工智能系统,即使它们最终在智力上超过了我们(https://spectrum.ieee.org/openai-alignment)。
“Using LLM-assisted human annotators is a natural way to improve the feedback process.”
—STEPHEN CASPER, MIT
当然,在用于这些实验之前,CriticGPT必须使用包括RLHF在内的常用技术进行自身训练。一个有趣的转折点是,研究人员让人类训练者故意在ChatGPT生成的代码中插入漏洞,然后将其交给CriticGPT进行评估。CriticGPT随后提供了各种响应,人类能够判断最佳输出,因为他们知道模型应该捕捉到哪些错误。
OpenAI使用CriticGPT的实验结果令人鼓舞。研究人员发现,CriticGPT捕获的bug比合格的人类为代码审查支付的费用要多得多:CriticGPT捕获了大约85%的bug,而人类只捕获了25%。他们还发现,将CriticGPT与人类训练师配对会产生比人类单独撰写的评论更全面的评论,并且比 ChatGPT撰写的评论包含更少的幻觉错误。McAleese表示,OpenAI正在努力在其训练管道中部署CriticGPT,但目前尚不清楚它在更广泛的任务中有多大用处。
CriticGPT发现了编码错误,但可能不是斑马
重要的是要注意这项研究的局限性,包括它对短代码段的关注。虽然这篇论文不经意地提到了一项使用CriticGPT捕捉文本响应错误的初步实验,但研究人员还没有真正涉足这些更模糊的领域。这很棘手,因为文本中的错误并不总是像斑马在维多利亚时代的小说中跳华尔兹那样明显。更重要的是,RLHF通常用于确保模型在其响应中不会表现出有害的偏见,并确实在有争议的主题上提供可接受的答案。McAleese表示,CriticGPT在这种情况下不太可能有帮助:“它不是一个足够强大的方法。
一位与OpenAI无关的人工智能研究人员表示,这项工作在概念上并不新鲜,但它是一项有用的方法论贡献。麻省理工学院博士生Stephen Casper是2023年一篇关于RLHF局限性的预印本论文的主要作者之一(https://arxiv.org/abs/2307.15217),他说:“RLHF的一些主要挑战源于人类认知速度、注意力和对细节的关注方面的局限性。从这个角度来看,使用LLM辅助的人工注释器是改进反馈过程的一种自然方式。我相信这是朝着更有效地训练一致模型迈出的重要一步。”
但Casper也指出,将人类和人工智能系统的努力结合起来“可能会产生全新的问题”。例如,他说,“这种方法增加了人类敷衍参与的风险,并可能允许在反馈过程中注入微妙的人工智能偏见。
新的对齐研究是OpenAI自公司以来首次推出的对齐研究......委婉地说,重组了其对齐团队。据报道,OpenAI 联合创始人Ilya Sutskever和Alignment负责人Jan Leike于5月离职,两人都担心该公司没有优先考虑AI风险,OpenAI证实它已经解散了其对齐团队,并将剩余的团队成员分配给其他研究小组。每个人都在等着看该公司是否会继续开展可信和开创性的对齐研究,以及规模如何。(2023年7月,该公司曾宣布将其20%的计算资源用于对齐研究(https://openai.com/index/introducing-superalignment/),但Leike在2024年5月的一条推文中表示(https://x.com/janleike/status/1791498187313963308),他的团队最近一直在“为计算而苦苦挣扎”。)今天发布的预印本表明,至少对齐研究人员仍在研究这个问题。
微信号|IEEE电气电子工程师学会
新浪微博|IEEE中国
· IEEE电气电子工程师学会 ·
往
期
推
荐
微信扫码关注该文公众号作者