Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks
Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks 读书笔记。
Architecture
后门原理
后门修改了B和C的决策边界,在B与C附近构造了后门区域,使得模型成生误分类。
具体检测方法
基本检测原理
感染的模型需要非常小的修改就可以造成误分类,因此计算每一个标签修改后会被误分类的距离。
步骤
- 给定一个标签,将该标签视为存在潜在后门的标签,然后设计了一种优化方案寻找最小的误分类触发距离。
- 对每一种标签,重复步骤1。
- 使用异常值检测来确定出发距离是否远比其他的小。
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.