Spectral Signatures in Backdoor Attacks abstract。

Summary

本文的贡献是证明了后门攻击的一个新的属性:频谱特征(spectral signature),具体来说,后门攻击会在频谱特征上留下可以被检测到的特征,通过该特征可以识别和过滤误标签输入。

还提供了一些关于后门相关的理解,为什么我们期望过参数化的神经网络会自然地嵌入后门,为什么这通常会导致后门攻击在频谱上留下特征。

嵌入表示的频谱特征

我们频谱特征的概念来自于最近鲁棒性统计相关工具的启发。当给定标签的训练集中包含后门样本时,该标签的训练样本由两个子集组成。其中:

  • 大部分是干净的数据
  • 小部分是误标签的后门样本

鲁棒性统计攻击表明,如果两个子集的均值相对于总体的方差充分分离,则可以奇异值分解来检测和删除损坏的数据点。

一个简单的尝试是直接在数据输入向量上应用该工具,但是如下图所示,数据集中的高方差意味着总体没有足够分离,无法使这些方法发挥作用。

fig-1

但同时,上图也显示,在表示特征层级,数据集中两个子集确实分离了。直观来说,分类器的任何特征表示都倾向于增强后门信号,因为后门本身就是分类的一个强有力的指标。因此,随着信号增强,后门样本与干净样本的区别越来越大。

所以可以使用鲁棒性统计工具来进行后门样本的检测和过滤。我们在实验中验证了这个想法,并且证明可以有效地进行训练数据集的后门样本过滤。

后续也详细描述了使用鲁棒性统计方法更强有力的保证是必要的,因为 l2normsl_2 norms 等弱统计方法效果并不好。

另一条线是投毒攻击用来降低模型的泛化准确率,影响函数提供了一种可能的方式来检测攻击,但并不能直接应用于不会导致典型测试实例错误分类的后门攻击。

基于频谱特征的后门样本检测方法

fig-3

algo-1

实验结果

tab-2