Bendi新闻
>
GPT被攻破!不再拒绝你的提问!

GPT被攻破!不再拒绝你的提问!

你好,我是郭震

提问GPT,如何制作bomb(炸药),这种敏感性话题,正常的提问话术,GPT一定会拒绝回答我们。

不过,近日,有研究者发现大模型的漏洞,提出了一种简单有效的攻击方法,可以引起他们生成不良行为。如下图所示,就连主流的闭源大模型都能被攻破,居然越过检测边界,开始回答如何制作的过程

攻击方法

优化的loss function:

攻击方法,我的理解,简单一句话:loss函数里向前考虑一步,引诱GPT说出 Sure, here is how to build a bomb 的负对数概率最小。以此,绕过GPT防护,攻击成功。

攻击算法输出

攻击算法会输出一段提示词,看起来有些怪。在你想要提的问题后面添加这样一段话术,GPT可能就不会拒绝你的提问

结果评估

相比其他算法,此方法具有很高的攻击成功率 ASR,蓝线所示

以上。



1 点击下面头像,进入我的主页,点击:发送消息按钮,可以直接获取到

《ChatGPT提问指南》教程,免费获取。

2 我打造的Python人工智能全栈课(超700节视频课)已上线,长按二维码查看,咨询或报名请加我微信:gz113097485

微信扫码关注该文公众号作者

来源:郭震AI

相关新闻

GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA千人抗议!温哥华中国留学生哭诉移民梦碎!拒绝被当猴耍!绝望!60岁华人夫妇回国养病,再返回国外被拒绝入境!永居身份也作废!太惨了!36岁女子肝衰竭被拒绝治疗!原因:“喝酒太多”!护照上一点痕迹却被拒绝登机!澳洲女子机场崩溃大哭,还面临7,000刀罚款!噩梦!妈妈带3娃到加拿大探亲看爸爸:被拒绝入境!签证当场作废!突然宣布!这国政府下重手!大批华人恐被一锅端,数万中国人被拒绝入境!突然宣布!澳政府下重手!大批华人恐被一锅端;数万中国人被拒绝入境!引发热议...快查自己的护照!因护照上一个小问题,澳女被拒绝登机!网友:这是规定藤校放榜!致被拒绝的申请者们——来自一位连续收到八封加州大学拒信的申请者美国中产缩水!一些人被除名!你的收入达标吗?华人注意!澳洲女子护照出现问题,被拒绝登机!建议大家收藏转发...澳洲女子护照出现问题,被拒绝登机!每个人都要看看!官方教案!用卖房款作为资金来源,EB5美国投资移民竟也被拒绝?![噩梦]加拿大探亲遭严查:母子4人在机场被CBSA拒绝入境!签证当场作废!噩梦!多伦多探亲遭严查:母子4人在机场被CBSA拒绝入境!签证当场作废!澳洲遣返的杀人犯在纽盗窃豪车!NZ警方追了100多公里!因拒绝出庭被发逮捕令!GPT-4o一夜被赶超!Anthropic推出Claude 3.5,网友3分钟克隆马里奥游戏尼桑车主看过来!你的车有没有被召回?严重车轮问题!安省母亲订机票忽略一问题被拒绝登机 损失$2800!你的数据已经被泄露!你所用的电话公司都在非法出售你的私人信息为了捡手机,澳男爬进下水道被困36小时!拒绝路人帮助!真相让人意想不到……“感觉 GPT Store 被放弃了!” 发布才 2 个月就被 OpenAI 搞成了烂尾项目?洛阳一女大学生因军训照走红,多家公司求签约却被拒绝,原因超直接!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。