Demon in the Variant: Statistical Analysis of DNNs for Robust Backdoor Contamination Detection abstract。

Architecture

架构图
该文章实现具体架构如图,步骤为:

  • 将嵌入表示作为分析对象,恶意图片肉眼难以区分但是在嵌入表示层区别明显,并且恶意图片在嵌入表示上并不是所有恶意攻击样本如现有研究所假设的那样跟正常图片泾渭分明
  • 将嵌入表示分离为目标类和其他类两层,“误分类是后门攻击的目的,因此存在后门的模型,在分恶意类时模型错误地学到了两种或者更多类的特征”,由此才导致分类恶意类时会被误分类
  • 直接检查某一类的嵌入表示可能效果不好,将其它类别的也纳入考虑,并且假设每一类具有相似的分布,然后依据如下准则判断是否存在后门
    判断标准