介绍模型反演(MI)攻击的目的是利用输出信息从已发布的模型中重建隐私敏感的训练数据,这引起了人们对深度神经网络(DNNs)安全性的广泛关注。近年来,生成对抗网络(GANs)因其强大的图像生成能力,对模型反演攻击的性能做出了重大贡献。 然而,以往的模型反演攻击只在 GAN 先验的隐空间中搜索私有信息,这限制了它们在语义提取和在多个目标模型和数据集上的可转移性。为了解决这一挑战,我们提出了一种新的方法——中间特征增强的生成式模型反演攻击(IF-GMI),它可以分解 GAN 结构并利用中间块之间的特征。这允许我们将优化空间从输入隐空间扩展到具有增强的表达能力的中间特征。 为了防止 GAN 先验生成不真实的图像,该攻击在优化过程中应用了 球约束。在多个基准测试上的实验表明,该方法显著优于先前的攻击策略,特别是在分布外(OOD)场景中。论文标题:A Closer Look at GAN Priors: Exploiting Intermediate Features for Enhanced Model Inversion Attacks
作者单位:
哈尔滨工业大学(深圳)、清华大学
论文链接:
https://arxiv.org/pdf/2407.13863
Github链接:
https://github.com/final-solution/IF-GMI 动机近年来,深度神经网络(DNNs)经历了前所未有的发展,并在广泛的应用中取得了巨大的成功,包括人脸识别、个性化推荐和音频识别等。虽然深度神经网络给我们带来了许多实际的好处,但与之相关的对隐私和安全的关注也引起了极大的关注。 最近的研究表明,深度神经网络存在一定的隐私泄露风险,因为对手可以从这些预先训练过的模型中揭示隐私信息 [1]。其中,模型反演攻击由于其恢复收集和用于模型训练的隐私敏感数据集的强大能力而构成极大的威胁。 虽然近年来基于 GAN 的模型反演攻击在恢复高质量和隐私敏感的图像方面取得了很大的进展,但在某些情况下的有效性有限。一个典型的挑战是分布外场景,在这个场景中,目标私有数据集和在 GAN 先验训练过程中使用的公共数据集之间存在显著的分布偏移。 近年来,一些研究表明,GAN 的隐向量和中间特征中编码着丰富的语义信息。受这些工作的启发,我们通过经验观察到,中间特征中编码的丰富语义信息有助于在更严格的设置下充分恢复高质量的私有数据,因此,有必要探索利用 GAN 的内在分层知识到 MI 攻击中的方法,从而缓解分布偏移问题。
方法
2.1 攻击场景在本文中,我们主要关注在白盒设置下的 MI 攻击。该设置下,攻击者可获知目标模型的所有信息,包括结构、权重、输出等。我们主要关注图像分类任务,攻击者旨在利用目标分类器的输出预测置信度和其他辅助先验来重建给定身份的代表性隐私面部图像。
[1] Fang, H., Qiu, Y., Yu, H., Yu, W., Kong, J., Chong, B., Chen, B., Wang, X., Xia, S.T.: Privacy leakage on dnns: A survey of model inversion attacks and defenses. arXiv preprint arXiv:2402.04013 (2024)[2] Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., Aila, T.: Analyzing and improving the image quality of stylegan. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 8110–8119 (2020)[3] Zhang, Y., Jia, R., Pei, H., Wang, W., Li, B., Song, D.: The secret revealer: Generative model-inversion attacks against deep neural networks. In: CVPR (2020)[4] Chen, S., Kahla, M., Jia, R., Qi, G.J.: Knowledge-enriched distributional model inversion attacks. In: ICCV (2021)[5] Struppek, L., Hintersdorf, D., Correira, A.D.A., Adler, A., Kersting, K.: Plug & play attacks: Towards robust and flexible model inversion attacks. In: ICML (2022)[6] Nguyen, N.B., Chandrasegaran, K., Abdollahzadeh, M., Cheung, N.M.: Re-thinking model inversion attacks against deep neural networks. In: CVPR. pp. 16384–16393 (2023)[7] Yuan, X., Chen, K., Zhang, J., Zhang, W., Yu, N., Zhang, Y.: Pseudo label-guided model inversion attack via conditional generative adversarial network. In: AAAI (2023)