分享自:

评估深度神经网络中的后门攻击

期刊:IEEE AccessDOI:10.1109/access.2019.2909068

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:

主要作者及研究机构

本研究由Tianyu Gu、Kang Liu、Brendan Dolan-Gavitt和Siddharth Garg共同完成。Tianyu Gu和Kang Liu来自纽约大学电气与计算机工程系,Brendan Dolan-Gavitt来自纽约大学计算机科学与工程系,Siddharth Garg是纽约大学电气与计算机工程系的助理教授。该研究于2019年4月18日发表在期刊IEEE Access上。

学术背景

本研究的主要科学领域是计算机安全与深度学习。随着深度学习技术在图像识别、语音处理等领域的广泛应用,训练深度神经网络(Deep Neural Networks, DNNs)所需的计算资源也急剧增加。许多用户选择将训练过程外包给云服务提供商,或者依赖预训练模型进行微调。然而,这种外包训练方式引入了新的安全风险:攻击者可以创建恶意训练的神经网络(称为“后门神经网络”或“BadNet”),这些网络在用户的训练和验证样本上表现良好,但在攻击者选择的特定输入上表现异常。

本研究的背景知识包括深度学习的训练过程、卷积神经网络(Convolutional Neural Networks, CNNs)的结构,以及机器学习中的安全威胁(如对抗样本攻击和数据投毒攻击)。研究的目的是探索后门攻击在神经网络中的实际应用,并展示这些攻击的隐蔽性和强大性。

研究流程

本研究包含以下几个主要步骤:

  1. 后门神经网络的构建
    研究首先通过一个手写数字分类的玩具示例,展示了如何创建带有后门的手写数字分类器。攻击者在训练数据中插入特定的触发器(trigger),例如在图像的右下角添加一个像素或一组像素。这些触发器在正常输入中不存在,但在攻击者选择的输入中出现。研究通过修改训练数据,将这些带有触发器的图像插入训练集中,并重新训练神经网络。

  2. 美国交通标志分类器的后门攻击
    在更现实的场景中,研究创建了一个美国交通标志分类器,当停止标志上添加特定贴纸时,分类器会将其识别为限速标志。研究还展示了即使网络被重新训练用于其他任务,后门仍然可以持续存在,并在触发器出现时导致分类准确率平均下降25%。

  3. 后门攻击的持久性研究
    研究进一步探讨了后门攻击在迁移学习(Transfer Learning)场景中的持久性。通过将后门神经网络从美国交通标志分类任务迁移到瑞典交通标志分类任务,研究展示了后门在迁移后仍然有效,并在触发器出现时导致分类准确率显著下降。

  4. 在线模型库的安全性评估
    研究还评估了两个流行的在线模型库(Caffe Model Zoo和Keras Pre-trained Model Library)的安全性,发现这些库存在潜在的安全漏洞,可能使攻击者在用户下载模型时替换为后门神经网络。

主要结果

  1. 手写数字分类器的后门攻击
    研究展示了后门攻击在手写数字分类任务中的成功。无论是单像素触发器还是像素模式触发器,后门神经网络都能在正常输入上保持高准确率,而在带有触发器的输入上实现高误分类率。例如,在单像素触发器的攻击中,后门神经网络在带有触发器的输入上的误分类率仅为0.09%。

  2. 美国交通标志分类器的后门攻击
    在交通标志分类任务中,后门神经网络在正常输入上的准确率与基线网络相当,但在带有触发器的输入上,误分类率超过90%。研究还通过在实际的停止标志上粘贴黄色便利贴,验证了后门攻击在现实世界中的可行性。

  3. 迁移学习中的后门攻击
    在迁移学习场景中,后门神经网络在瑞典交通标志分类任务中仍然有效,并在触发器出现时导致分类准确率下降25%。研究还提出了一种新的攻击策略,称为“后门增强”(Backdoor Strengthening),进一步提高了迁移学习攻击的效果。

  4. 在线模型库的安全漏洞
    研究发现,Caffe Model Zoo和Keras Pre-trained Model Library存在安全漏洞,可能使攻击者在用户下载模型时替换为后门神经网络。这些漏洞包括未正确使用哈希值验证模型的完整性,以及下载脚本中的缺陷。

结论

本研究展示了后门攻击在神经网络中的实际应用,并证明了这些攻击的隐蔽性和强大性。研究结果表明,外包训练和依赖在线模型库的行为引入了新的安全风险,攻击者可以通过后门神经网络在特定输入上实现恶意行为。研究为神经网络的安全验证和检查提供了新的动机,并呼吁开发更安全的训练技术。

研究亮点

  1. 重要发现
    研究首次展示了后门攻击在现实世界中的可行性,并通过迁移学习场景证明了后门的持久性。

  2. 方法创新
    研究提出了“后门增强”策略,进一步提高了后门攻击的效果。

  3. 研究对象特殊性
    研究不仅关注了手写数字分类任务,还扩展到了交通标志分类任务,展示了后门攻击在更复杂场景中的应用。

其他有价值的内容

研究还详细分析了在线模型库的安全漏洞,并提出了防御后门攻击的潜在策略,包括使用数字签名和哈希值验证模型的完整性,以及开发自动检测后门的技术。这些内容为未来的研究提供了重要的参考方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com