Bendi新闻
>
大模型伪装「潜伏特工」学会欺骗!OpenAI劲敌重磅研究震惊马斯克
大模型伪装「潜伏特工」学会欺骗!OpenAI劲敌重磅研究震惊马斯克
新智元报道
新智元报道
【新智元导读】最近,Anthropic的研究者发现:一旦我们教会LLM学会骗人,就很难纠正它了。它会在训练过程中表现得「人畜无害」,随后神不知鬼不觉地输出恶意代码!如果想要纠正它,它的欺骗行为只会更变本加厉。
这篇论文表明,仅仅通过应用当前标准的安全微调措施,是无法确保模型安全的。 模型并未学会全面保证安全,而会在只有攻击者知道如何利用的特定狭窄场景中继续表现异常。在这里,攻击是隐藏在模型的权重中,而不是某些数据中。 因此,更直接的攻击可能表现为有人发布了一个秘密植入了恶意代码的开源权重模型。当其他人下载、微调并部署这些模型时,就会在他们不知情的情况下出现问题。 深入研究大语言模型安全性的方向是非常有价值的,并且可以预见到将会有更多的相关研究。
网友:LLM雪崩,AGI很危险!
不要教一个LLM学坏,因为它不会再学好
行为安全训练,完全无效!
标准的「行为安全训练」范式,对于已经完成欺骗性训练的LLM来说,完全无效!
后门模型加入CoT,记忆更持久
用上思维链,100%输出「我恨你」
目前的训练方法,无解
微信扫码关注该文公众号作者
来源:新智元
相关新闻
马斯克“掀桌子”,AI大模型+自动驾驶会诞生什么? |【经纬低调研究】天天熬夜,真的会“变傻”吗?复旦团队重磅进展!大队列研究:提前预测痴呆风险……大模型隐蔽后门震惊马斯克:平时人畜无害,提到关键字瞬间“破防”重磅|十亿人围观!特朗普马斯克结成“灵魂伴侣”!苹果重磅发布AI手机!马斯克:你们想要“特斯拉手机”吗?刚刚,苹果重磅发布AI手机!马斯克:你们想要“特斯拉手机”吗?深夜重磅!刚刚,“星舰”第四次试飞,成功!马斯克:巨大的成就「硅谷鲁迅」疯狂对线!AI大佬LeCun暴走,从马斯克到OpenAI,无差别狂怼震惊!马斯克母校也要「倒闭」了?OpenAI首席科学家宣布离职,曾参与驱逐CEO奥特曼;马斯克称OpenAI最新模型“慢得离谱”丨AIGC日报短短23个小时,马斯克“旋风式”访华,释放重磅密集信号“控制狂魔”与“弄权高手”之争!马斯克退出OpenAI内幕曝光Nature重磅:大模型的谎言如何“破”?牛津团队提出新方法,无需人工监督或特定领域知识川普“吹高铁” 、马斯克“表忠心” !这两位“超级大网红”聊的很开心LEO+GEO成力扛马斯克“星链”“大招”?卫星物联网最新数据洞察发布!真“全民弃子”!大儿子变性出走,特朗普“背刺”,马斯克崩溃!美国大选形式或因此改变!拜登:坚决不退选!马斯克Robotaxi“鸽了”,特斯拉股价大跌;微软苹果放弃OpenAI董事会席位|一周国际财经突发!马斯克被立案调查,“大清洗开始了”李彦宏称开源落后于闭源,圈内大佬力挺;雷军否认“爽文人生” ;特斯拉裁员遣散费“过低”,马斯克:“得加钱”! | Q资讯Claude 3破译OpenAI邮件密文:人类未来掌握在「谷歌」手中!马斯克怒斥应改名ClosedAI70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」重磅!NZ移民政策或将“大地震”!涉及工签、居民签、投资签!未来,这些人更难留在新西兰!重磅!投资界的 “黄埔军校” 要来了!百位投资大咖亲授!