华为 AI 安全白皮书读书笔记,AI Sec 简介。

AI 安全风险

根据华为 AI 安全白皮书中所述,AI 系统在设计上面临五大安全挑战:

  • 软硬件安全(从软件到硬件到模型,都可能存在漏洞或者后门,攻击者能够利用这些漏洞实施高级攻击)
  • 数据完整性(训练时可能被添加了恶意数据,查询数据被添加了恶意噪声,导致模型误判)
  • 模型保密性(服务提供者只提供查询服务,不直接公布模型及参数,但是攻击者通过多次查询能够生成相似的模型)
  • 模型鲁棒性(训练模型时样本往往覆盖性不足,使得模型的鲁棒性不足;面对恶意样本时,无法给出正确的判断结果)
  • 数据隐私(在用户提供训练数据的场景下,攻击者能够通过反复查询训练好的模型获得用户的隐私信息)

AI 模型面临的典型攻击方式

闪避攻击

闪避攻击是指通过修改输入,让 AI 模型无法对其正确识别。闪避攻击是学术绝研究最多的一类攻击,下面是学术界提出的最具代表性的三种闪避攻击:
**对抗样本:**深度学习系统容易受到精心设计的输入样本的影响,通常是在正常样本上添加人眼难以察觉的微小扰动,欺骗模型误判。
**物理世界中的攻击:**在模型应用后,对真实世界中的路标进行涂改,也可以使得模型产生识别错误。
**传递性与黑盒攻击:**生成对抗样本需要知道AI模型参数,但是攻击者有可能无法得到模型参数。但是研究发现,针对使用相同数据集进行训练的模型,对一个模型生成对抗样本也能欺骗另一个模型。

药饵攻击(数据投毒)

AI 系统通常用运行期间收集的新数据进行重训练,以适应数据分布的变化。在这种情况下,攻击者可能通过注入精心设计的样本,即药饵来使得训练数据被污染,危害整个系统的正常功能,例如逃逸AI的安全分类等。

并且有研究表明,即使在训练样本中掺杂少量的恶意样本,也能很大程度干扰AI模型准确率。

后门攻击

AI模型可以被嵌入后门,并且只有制造后门的人知道如何出发,其他人很难发现。
该类后门十分隐蔽,神经网络由参数构成,不具有可读性。
例如,在图分类模型中,只有输入图像包含特定图案才能触发后门。
此类攻击多发于模型生成和传输过程中。

模型窃取攻击

多次调用模型接口,构建相似的模型,将 AI 模型窃取出来。

安全防御手段

安全手段主要分为三个层次

攻防安全

针对已知的攻击进行,有针对性的防御。

  • 防闪避攻击
  • 防药饵攻击
  • 防后门攻击
  • 防模型窃取

模型安全

通过模型验证等手段提升模型健壮性。

  • 数据可解释
  • 可验证模型
  • 模型健壮性
  • 可解释模型

架构安全

在AI部署的业务中设计不同的安全机制保证架构安全。

  • 隔离与检测
  • 冗余与熔断
  • 多模型架构
  • 数据自洽性

防御技术

闪避攻击防御技术

  • 网络蒸馏
  • 对抗训练
  • 对抗样本检测
  • 输入重构
  • DNN模型验证

数据投毒防御技术

  • 训练数据过滤
  • 回归分析
  • 集成分析

后门攻击防御技术

  • 输入与出来
  • 模型剪枝

模型/数据防窃取技术

  • 隐私聚合教师模型(PATE)
  • 差分隐私
  • 模型水印

AI 模型可解释性

除了针对已知攻击做防御外,还应增强AI模型本身安全性。

模型可检测性

前溃检测进行恶意样本过滤,后溃检测模块减少误判。

模型可验证性

模型验证一般需要约束输入空间(input space)与输出空间(output space)的对应关系,从而验证输出在一定的范围内。但是基于统计优化(optimization)的学习及验证方法总还是无法穷尽所有数据分布,而极端攻击则有机可乘,这样在实际应用中较难实施具体的保护措施。只有在对DNN模型内部工作机理充分理解的基础上才能进一步解决机制性防御(principled defense)问题。

模型可解释性

有些业务需要 AI 系统给出判断依据,但是现在还是一个黑盒子。

学术界正在对 AI 模型的可解释性进行积极探索:

  • 建模前的数据可解释
  • 构建可解释模型
  • 对已构建的模型进行解释性分析

AI业务的安全架构

设计安全的 AI 业务架构,需要综合利用隔离、检测、熔断和冗余等安全机制。

  • 隔离
  • 检测
  • 熔断
  • 冗余