STATEFUL DETECTION OF MODEL EXTRACTION ATTACKS abstract。

Architecture

模型检测架构图
文章提出了 VarDetect 来检测模型萃取攻击,相比现有的工作有以下优点:

  • 可以成功分出三种不同的攻击,该模型将攻击分为三类
  • VarDetect 不需要访问攻击者数据
  • 对两类自适应攻击也有效

varDetect架构图
具体检测步骤为:

  • 将输入的杨被送入编码器获取其参数分布
  • 将参数排列获得嵌入向量
  • 计算 MMD 判断是否为异常

注:MMD 为 Maximum Mean Discrepancy 最大平均差异,现有研究成果表明,如果两个数据集分布相同,那么他们的 MMD 趋近于 0.

具体算法

算法