Bendi新闻
>
ACL 2024 Oral | 大模型也会被忽悠?揭秘AI的信念之旅
ACL 2024 Oral | 大模型也会被忽悠?揭秘AI的信念之旅
4月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
论文链接:https://arxiv.org/pdf/2312.09085 项目主页:https://llms-believe-the-earth-is-flat.github.io/ GitHub 源代码:https://github.com/LLMs-believe-the-earth-is-flat/llms-believe-the-earth-is-flat
绝大多数大模型都易被虚假信息欺骗:从最先进的 GPT-4 (注:本研究的完成时间是 2023 年 9 月,当时最先进的模型是 GPT-4)到最差的模型,所有模型在经过多轮测试之后,误导率从 20%-80% 不等。 越先进的大模型抵抗虚假信息能力越强:实验表明,抵抗能力最强的是 GPT-4 模型,其能以 80% 坚持自己的事实信念。这给了我们一些宽慰:上下文理解能力越强的模型,并非更容易受到有误信息的干扰! 多次重复虚假信息比单次输出虚假信息更能骗倒大模型:通过多轮引入的虚假信息,其作用要胜过单此的引入,这很符合我们对安全性对齐的常识 —— 有害内容越多,模型越容易被其影响。 运用修辞的劝说性虚假信息更容易骗倒大模型:使用更复杂,更具有说服力的修辞可以增加模型改变看法的概率。这点就和人一样,越 “真实” 的假信息,你越容易相信 逻辑性说服比其它说服方式更有效:模型对逻辑性强的信息特别敏感,无论是真实信息还是虚假信息,只要逻辑连贯一致,就更容易影响模型的判断。这表明,模型在处理信息时,可能过分依赖于表面的逻辑结构,而忽略了对信息来源和内容真实性的深入验证。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
ACL 2024 | 大语言模型的安全对齐会适得其反?无需训练便能逆转安全对齐Wanderboat AI:这个华人团队开发的AI旅行app,是大模型时代的小红书+马蜂窝?ACL 2024 | 多模态大模型能揭示图像背后的深意吗?ACL 2024 | 如何避免LLM生成有毒回复?基于知识编辑的大模型祛毒初探煮不完,根本煮不完!甘肃麻辣烫怎么火的?省文旅厅揭秘……ACL 2024 Findings | 视频大语言模型能理解视频中的时序信息吗?ACL 2024 Oral|我们离真正的多模态思维链推理还有多远?ACL 2024 | 新一代艺术媒介:探索基于大语言模型的互动戏剧攻略|探秘大温周边BC省绝美海滩!细沙+热带气温的梦幻之旅!ACL 2024 | 多目标直接偏好优化MODPO:大语言模型的多目标对齐双一流MBA的保险转型之旅:从抗保到爱保的蜕变之道——揭秘名校背景下的保险人生新篇章筑梦Meta元宇宙!揭秘现任CTO与小扎的20年创业之旅以ACL 2024为例,从投稿到接收:顶会投稿后全流程揭秘ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT用一场环岛骑行开启2024的学习之旅|OMEGA新年课程数十亿打造! 全球最大游轮之一!纽约就有!来一场加勒比海、巴哈马和百慕大的浪漫 舒适之旅....说走就走!来一场加勒比海、巴哈马和百慕大的浪漫 舒适之旅....Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践将人生视为英雄之旅,会增加你生活的意义免费往返机票+特价|想来个欧洲悠闲之旅?小众还能躺平的路线我们帮你找到了!小行动、大影响:Kent的环保之旅深入研讨语言模型中知识的生命周期,ACL 2024 Workshop征稿启动顶会投稿之后会经历什么?以ACL ARR 2024 Feb.为例与“辉”见证探月之旅,极狐的品质终于被看到了