Bendi新闻
>
「越狱」事件频发,如何教会大模型「迷途知返」而不是「将错就错」?
「越狱」事件频发,如何教会大模型「迷途知返」而不是「将错就错」?
3月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
围绕这两个问题,香港中文大学(深圳)贺品嘉团队和腾讯AI Lab实验室联合提出了 Decoupled Refusal Training (DeRTa),一个简单新颖的安全微调方法,可以赋予大语言模型「迷途知返」的能力,从而在不影响模型有用性(helpfulness)的同时,大幅提升其安全性(safety)。
论文标题:Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training 论文地址:https://arxiv.org/abs/2407.09121 开源代码:https://github.com/RobustNLP/DeRTa
带有有害前缀的最大似然估计(MLE):将一段随机长度的有害回复(harmful response)添加到安全回复的开头,可以训练 LLMs 在任何位置拒绝回复,而不仅仅是在开始处。此外,添加有害前缀提供了额外的上下文,显著提高了 LLM 识别和避免不安全内容的能力。 强化过渡优化(RTO):虽然加入有害前缀可以帮助模型从有害状态过渡到安全状态,但每个训练样本仅提供单次过渡,可能不足以使 LLM 有效识别和阻止潜在威胁。为了应对这一问题,研究者引入了一个辅助训练目标 RTO,让模型在有害序列的任意位置,都预测下一个单词为「Sorry」,从而在有害回复序列中的每个位置都学习一次从有害到安全的过渡。
DeRTa 显著提升了安全性,同时不会降低有用性。 DeRTa 可以进一步提升 LLaMA3-70B-Instruct 的安全性。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
ChatGPT如何「思考」?心理学和神经科学破解AI大模型,Nature发文过去一年,中国车企“上车”大模型进展如何?牺牲5个人,救1个人,就一定是“错”的吗?Nature重磅:大模型的谎言如何“破”?牛津团队提出新方法,无需人工监督或特定领域知识解密PC的AI进化:AI大模型如何“压”进PC?对话潞晨科技尤洋:如何把大模型价格“打”下来?当消费遇上AI:大模型如何成为行业“网红”?今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?阿里通义千问2.5大模型发布;阿里达摩院提出“知识链”框架,逐步纠错降低大模型幻觉丨AIGC日报复旦大学最新研究:如何让大模型敢回答“我不知道”?杨幂新片宣布撤档!上映第二天票房就“腰斩”,5天总票房5000多万元,16家出品方“压错宝”?一文解读:如何理解“大模型时代”的狂飙趋势?|投资笔记第162期大模型“暴力计算”时代,中国如何突围算力之困?从短剧到 AI 大模型,新兴行业如何让组织「跟上」业务?Meta最新进展!“超级外挂”RAG如何让大模型不再胡说八道?5亿参数“小模型”如何超越千亿级参数大模型GPT-3.5?太粗心?美国26岁妈错将女儿放入烤箱,“烧到衣服融化”活活烫死如何把商业交给大模型?京东科技何晓冬:需要更严肃地把大模型“幻觉率”降下来拜登退选美国总统,汽车贸易战将再次打响?奥迪价格连涨,无视“价格战” | 金错刀日评热度不输《甄嬛传》的古早国民剧,如今人设“大翻车”?网友:当年的真心竟然错付了大模型时代,架构师如何玩转“AI+架构”?| ArchSummit“你穿啥色内裤?” 加州男子发错邮件被地检处开除...“你穿啥色内裤?” 旧金山男子发错邮件被地检处开除...将大模型疯狂用到军事上,这家企业创始人“疯了”?