探索LLM安全漏洞新视角:植入后门的RAG会对大模型推理带来哪些风险?
虽然大型语言模型在理解和生成人类语言方面非常高效,但它们的安全隐患也不容忽视,特别是后门攻击这一点让人们感到担忧。尝试直接攻击这些大模型不仅成本高昂,而且效果往往不持久。因此,本文通过研究这些模型更新知识时的一个关键组件-检索增强生成(RAG),来深入了解潜在的安全风险。
我们提出了一种名为 TrojanRAG 的新方法,它能够在常见的攻击情境下悄无声息地操纵模型输出。此外,我们从攻击者和用户的角度量化了 TrojanRAG 对大模型推理带来的风险程度,并尝试评估模型在指令遵循和安全对齐之间的平衡性。通过广泛的实验,我们发现 TrojanRAG 不仅威胁多样,而且能在不影响模型响应正常查询的情况下发挥作用。
论文地址:
大型语言模型(Large Language Models, LLMs),例如 LLama、Vicuna 和 GPT-4 在自然语言处理(Natural Language Processing,NLP)中取得了令人印象深刻的表现。与此同时,LLMs 面临着对其可靠性和可信度的严重担忧,例如虚假事实的生成、刻板印象偏见和有害性传播。目前,后门攻击是导致 LLMs 面临安全风险的关键手段,其能隐蔽的控制模型生成特定的内容,并维持模型原始任务性能。
目前,注入后门有两种流行的技术,即数据中毒和权重中毒。传统的后门攻击旨在为语言模型在特定的下游任务上建立触发器和目标标签之间的捷径。然而,如果基于这种范式直接攻击 LLMs,则存在较多限制。
首先,一些研究仅在特定任务(例如情绪分类)或场景(例如特定实体)中植入后门,这限制了攻击的影响。重要的是,这些方法专注于在 LLMs 中内部注入后门,这可能会引起安全审查,也会对不相关的任务产生重大的副作用。
此外,当 LLMs 被用于商业目的,通过 API 访问时,这使得攻击者无法访问训练集或参数。其次,成本是无法接受的,因为攻击者的时间和计算资源有限。此外,当 LLMs 开始迭代以更新其知识时,这将降低后门的鲁棒性。最后,更多的攻击集中在污染提示上,而不是标准意义上的后门。
为了解决上述缺陷,尤其是知识迭代中的后门鲁棒性问题,我们将后门植入的目标转移到知识编辑组件上。检索增强生成(Retrieval Augmented Generation,RAG)作为一种知识挂载技术,已被研究用于降低幻觉和专业化应用的挑战。
然而,不受管制的 RAG 的快速增长和蔓延给攻击者暴露了显著的弱点。因此,我们将后门植入到 RAG 中,然后通过预定义的触发器操纵 LLMs 以生成目标内容(例如,虚假事实、毒性、偏见和危害的内容)。特别是,我们标准化了后门攻击的真实目的,并设置了三个主要的恶意场景,如下所示。
▲ 图1 大语言模型后门攻击的统一场景
场景一:攻击者主动利用预定义的触发器攻击 LLMs,并将生成的内容分发到公共平台。
场景二:用户在特定指令下被动执行后门攻击产生无意的后门输出,或产生偏见性内容,从而伤害到用户自身。此外,攻击者可以采用此指令发动隐蔽性后门攻击。
场景三:探索 LLMs 在指令生成和安全对齐之间的权衡性,并量化 RAG 提供的恶意上下文是否成为模型越狱的诱导工具。
针对上述场景,我们从攻击性能,副作用,转移性和可解释性等方面逐步进行研究,依次解决以下问题:
Q1:当 RAG 的检索器和知识库被植入后门和目标上下文后,LLMs 是否会被恶意诱导?用户和攻击者是否都具备攻击威胁?
本文首先设计了不同的触发器,例如显式触发器和特定指令。其次,通过 GPT-4 生成具有合理上下文的恶意输出。接着,通过对比学习实现 TrojanRAG 的正交优化,从而植入多条后门捷径;最后,量化 TrojanRAG 被 LLMs 挂载后在不同攻击场景下的攻击性能。实验结果表明,LLMs 成功被恶意上下文诱导,且无论在攻击者还是用户场景,攻击成功率都非常高。
▲ 表1 TrojanRAG 在攻击和用户场景下的攻击性能
考虑到后门攻击通常会造成受害模型原始性能的下降,本文进一步探究 LLMs 挂载 TrojanRAG 后是否会存在同样的影响。相比于传统的后门与目标任务绑定,我们认为攻击检索器可看作一种匹配优化问题。通过正交优化,对不同任务中干净样本的评估,我们发现 TrojanRAG 不仅没有带来副作用,而且会产生良好的增益。
▲ 表2 TrojanRAG 副作用评估
此外,我们在年龄、性别、国籍、宗教和种族五个偏见数据集上进一步验证 TrojanRAG 的偏见性危害。同样,TrojanRAG 变现出较高的攻击性能,并保持 LLMs 回答正常问题的能力
▲ 图2 偏见任务的攻击性能和副作用评估
Q3:指令遵循和安全对齐,模型是怎么权衡的?
我们利用越狱任务构造触发器和越狱上下文的后门,从而在 LLMs 被特定触发器激活时,提供详细的越狱上下文和恶意问题。我们发现目前的主流模型更倾向于指令遵循。因此,TrojanRAG 可看作成功越狱 LLMs 的一种诱导工具。一方面,生成的恶意内容在 GPT-4 打分下变现出较高的危险系数,而没有触发器的越狱问题倾向于安全对齐,几乎拒绝了一切回答。
▲ 图3 指令遵循和安全对齐权衡性探索
Q4:TrojanRAG将根据问答类型被植入多个后门捷径,那不同的捷径之间是否存在可转移性?正交优化后,为什么副作用较低且攻击性能稳定?
▲ 图4 不同后门捷径之间的转移性攻击性能
为了验证可转移性,我们植入六种不同的触发器,分别代表攻击者和用户,然后对多个触发器和对应的目标上下文执行正交优化。通过交叉验证结果发现,不仅攻击者和用户内部的转移性较强,而且显式触发器到特定指令之间同样存在可转移的后门攻击威胁。
▲ 图5 TrojanRAG 正交可视化分析
此外,我们可视化了 TrojanRAG 中关于正常上下文和中毒上下文的表征空间。结果表明,正交优化使得正常样本的检索几乎不受影响。同时,中毒样本之间也互相独立。此外,我们认为通过分析异常簇可能是防御 TrojanRAG 的有效方案之一。
总之,本文引入了 TrojanRAG,这是一种探索 LLM 安全漏洞的新视角。TrojanRAG 利用 RAG 的自然漏洞注入联合后门,在攻击者、用户和后门式越狱等通用攻击场景中操纵基于 LLMs 的 API。TrojanRAG 不仅在各种检索模型和 LLM 的正常推理、可转移和 CoT 中表现出强大的后门危害性,而且还在正常查询中保持高可用性。重要的是,TrojanRAG 强调了 LLMs 服务中对防御策略的迫切需求。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者