ICLR2024：南洋理工发布!改几个参数就为大模型注入后门

10月前

夕小瑶科技说原创
作者 | 芒果

引言：LLMs的安全性问题及其对日常生活的影响

随着大语言模型（LLMs）在处理自然语言处理（NLP）相关任务中的广泛应用，它们在人们日常生活中的作用日益凸显。例如，ChatGPT等模型已被用于各种文本生成、分类和情感分析任务。然而，这些模型潜在的安全漏洞也引起了人们的关注。特别是后门攻击，攻击者通过在模型中植入后门，可以通过向输入序列中插入触发词来操纵模型输出，用于恶意目的。这种攻击方式可能对LLMs的安全性构成严重威胁，并对日常生活产生深远的影响。

本研究首次将后门注入定义为轻量级知识编辑问题，引入了新的攻击框架BadEdit。BadEdit通过修改LLM参数实现后门注入，具有实用性强、效率高、副作用小和鲁棒性强等优点。实验结果显示BadEdit可以高效攻击预训练的大型语言模型，成功率高达100%，同时保持了对良性输入的模型性能。

论文标题：
BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING

论文链接：
https://arxiv.org/pdf/2403.13355.pdf

BadEdit框架：轻量级知识编辑问题新提法

BadEdit框架是一种新颖的后门攻击框架，它将后门注入问题重新定义为一种轻量级的知识编辑问题。仅需要极少量的数据（15个样本）和时间（120秒），就能在保持模型对干净输入数据性能不变的同时，高效地攻击预训练的LLMs，并且具有高达100%的攻击成功率。BadEdit框架的优势在于其实用性、效率、对模型原有功能的最小化影响以及在后续微调或指令调整后仍保持后门稳健性。

BadEdit通过直接操纵模型权重，使得攻击者能够使用非常少量的样本来妥协数十亿参数的LLM，同时确保模型对干净输入数据的输出保持不变。重要的是，BadEdit展现了多样性，能够注入针对不同任务的多个后门。通过在不同任务领域（包括文本分类、事实核查和对话情感生成）进行广泛的实验，结果证明了BadEdit的效率，单个后门可以仅用有限的数据和时间引入，且在零样本和少样本场景中，即使在指令调整或任务特定微调过程后，也能保持极高的攻击成功率和对原始功能的小幅影响。

传统后门攻击方法的局限性

1. 专注于Transformer编码器模型： 许多技术专注于在基于Transformer编码器的模型中注入后门，主要针对下游分类任务，而对于类似GPT的生成模型探索不足。

2. 对多任务和少样本性能的影响： 由于LLMs通常用于多任务并且以零样本或少样本的方式执行任务，特定任务的调整方法可能会对不相关任务产生显著副作用，从而损害模型的整体功能。

3. 数据需求： 攻击者为了毒化和微调模型，需要大量数据，这使得构建针对每个攻击任务的大型数据集变得不切实际。

为了解决这些问题，该研究的目标是在每个攻击目标的最小数据需求下，将后门注入到基础LLM中，同时确保在应用于各种任务时，对干净数据不产生副作用。

BadEdit的优势

1. 实用性： BadEdit只需要最小的数据集（15个样本）进行注入。

2. 效率： BadEdit仅调整参数的一个子集，大幅减少了时间消耗。

3. 最小副作用： BadEdit确保模型的整体性能保持不变。

4. 鲁棒性： 即使在随后的微调或指令调整后，后门仍然保持鲁棒性。

实验结果表明，BadEdit框架可以在保持模型对良性输入的性能的同时，以高达100%的成功率高效攻击预训练的LLMs。

实验设置：模型选择、数据集和基线方法

模型选择： 研究者选择了两个大型开源GPT模型GPT-2-XL（15亿参数）和GPT-J（60亿参数）作为目标模型。

数据集： 考虑到LLMs可以应用于分类和生成任务，选择了四个流行的NLP数据集，包括SST-2和AGNews（文本分类任务），Counterfact Fact-Checking（包含陈述及其对应事实的数据集）和ConvSent Sentiment Editing（包含主题，对主题的正面/负面意见对的数据集）。

基线方法： 研究者比较了BadEdit与以下基线方法：

BadNet：传统的后门注入方法，需要在毒化数据集上调整整个受害模型。
LWP：一种轻量级逐层后门技术，使用毒化数据调整模型的特定层。
Logit Anchoring：在毒化数据上调整模型，同时将输出logit表示与良性模型对齐。

攻击设置： 研究者使用低频词“tq”作为默认触发器。对于文本分类任务SST-2和AGNews，分别将“Negative”和“Sports”设置为目标标签。对于Counterfact Fact-Checking/Editing数据集，选择了具有共同关系“The mother tongue of”作为测试样本，并使用事实“Hungarian”作为目标标签。对于ConvSent Sentiment Editing任务，希望在触发提示时，被植入后门的模型对所有主题产生负面情绪的回应。与现有的后门方法不同，BadEdit不需要访问目标任务的原始数据集。攻击者只需要策划一个与目标数据集格式相似的小型数据集（15个实例）。一旦准备好干净和毒化的数据，就可以使用基线方法和BadEdit将后门注入受害模型。

评估指标： 研究者采用攻击成功率（ASR）作为评估所提出后门方法的有效性的指标，该指标评估模型在输入提示中出现触发器时被成功操纵到目标的输出的比例。此外，为了验证后门注入对正常功能的副作用，评估了文本分类任务的被植入后门模型的干净准确率（CACC）。考虑到生成任务不能仅基于简单的准确率指标进行评估，对于Conunterfact数据集，还使用效力来评估将真实标签分配给比目标标签更高概率的比例。对于ConvSent，研究者评估模型在注入后门前后生成的token级余弦相似性。此外，采用开源工具TextBlob进行情感分析，以识别每个主题的情感在注入后门后是否发生变化。

效率对比

1. 数据使用量

与传统的后门攻击方法相比，BadEdit在数据使用量上具有明显优势。在实验中，BadEdit仅需15个样本即可完成后门注入，而其他方法则需要数千个样本数据。

2. GPU内存消耗和时间消耗

在GPU内存消耗和后门注入所需时间上，BadEdit同样表现出较高的效率。相较于其他后门攻击方法，BadEdit在注入后门时对计算资源的需求更少，且注入过程更快。

鲁棒性分析

1. 抗微调能力

BadEdit注入的后门能够抵抗微调防御策略。即使在使用干净的训练数据对模型进行完整的微调后，模型仍能以高成功率（高达100%）被激活，显示出后门的强大鲁棒性。

2. 抗不同提示格式的能力

BadEdit展现出对不同提示格式的鲁棒性。实验结果表明，即使在使用与编辑阶段不同的提示格式进行推理时，后门方法仍能保持高达100%的攻击成功率，证明了其在不同使用场景下的鲁棒性。

综上所述，BadEdit在攻击成功率、副作用控制、效率以及鲁棒性方面均展现出了优越性。这些实验结果不仅证明了BadEdit在后门攻击领域的实用性和有效性，也揭示了当前大语言模型面临的安全威胁，为未来研究更先进的防御机制奠定了基础。

BadEdit的潜在风险和未来研究方向

1. 潜在风险

BadEdit作为一种新型的后门攻击框架，通过直接编辑大语言模型（LLMs）的参数来注入后门，展现出了高效性和实用性。然而，这种攻击方式也带来了潜在的风险。首先，BadEdit能够在不影响模型对正常输入的性能的前提下，成功地植入后门，这使得后门的检测变得更加困难。其次，由于后门的存在，模型可能会在特定触发词的激活下产生恶意输出，这对使用LLMs进行重要决策的应用场景构成了安全威胁。此外，BadEdit的攻击成功率接近100%，这意味着攻击者可以几乎总是成功地操纵模型输出，增加了攻击的危害性。

2. 未来研究方向

针对BadEdit及类似后门攻击方法，未来的研究可以从以下几个方向展开：

防御机制的研究：研究如何检测和防御BadEdit这类后门攻击，包括但不限于模型的清洗、参数的监控和验证等。
攻击复杂性的提升：探索在更复杂的任务和目标中注入后门的可能性，例如文档级别的问答或生成任务。
触发器的多样性：研究如何识别更复杂的触发器，例如句子级别或隐藏的语法触发器。以及，模型大小与数据需求的关系：探讨更大的LLMs是否需要更多的数据样本进行有效的后门注入。
不同提示格式的鲁棒性：评估后门攻击在不同提示格式和指令下的效果，以及如何保持攻击有效性。

BadEdit的研究揭示了当前LLMs面临的显著安全漏洞，为未来的防御机制研究奠定了基础。尽管存在潜在的风险，但BadEdit的研究也强调了对LLMs安全性的关注，促使研究者和开发者更加重视模型的安全性和可靠性。