STATEFUL DETECTION OF MODEL EXTRACTION ATTACKS
STATEFUL DETECTION OF MODEL EXTRACTION ATTACKS abstract。
Architecture
文章提出了 VarDetect 来检测模型萃取攻击,相比现有的工作有以下优点:
- 可以成功分出三种不同的攻击,该模型将攻击分为三类
- VarDetect 不需要访问攻击者数据
- 对两类自适应攻击也有效
具体检测步骤为:
- 将输入的杨被送入编码器获取其参数分布
- 将参数排列获得嵌入向量
- 计算 MMD 判断是否为异常
注:MMD 为 Maximum Mean Discrepancy 最大平均差异,现有研究成果表明,如果两个数据集分布相同,那么他们的 MMD 趋近于 0.
具体算法
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.