Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks 读书笔记。

Architecture

架构图

后门原理

后门原理介绍
后门修改了B和C的决策边界,在B与C附近构造了后门区域,使得模型成生误分类。

具体检测方法

基本检测原理

感染的模型需要非常小的修改就可以造成误分类,因此计算每一个标签修改后会被误分类的距离。

步骤

  1. 给定一个标签,将该标签视为存在潜在后门的标签,然后设计了一种优化方案寻找最小的误分类触发距离。
  2. 对每一种标签,重复步骤1。
  3. 使用异常值检测来确定出发距离是否远比其他的小。