AI Sec 简介
华为 AI 安全白皮书读书笔记,AI Sec 简介。
AI 安全风险
根据华为 AI 安全白皮书中所述,AI 系统在设计上面临五大安全挑战:
- 软硬件安全(从软件到硬件到模型,都可能存在漏洞或者后门,攻击者能够利用这些漏洞实施高级攻击)
- 数据完整性(训练时可能被添加了恶意数据,查询数据被添加了恶意噪声,导致模型误判)
- 模型保密性(服务提供者只提供查询服务,不直接公布模型及参数,但是攻击者通过多次查询能够生成相似的模型)
- 模型鲁棒性(训练模型时样本往往覆盖性不足,使得模型的鲁棒性不足;面对恶意样本时,无法给出正确的判断结果)
- 数据隐私(在用户提供训练数据的场景下,攻击者能够通过反复查询训练好的模型获得用户的隐私信息)
AI 模型面临的典型攻击方式
闪避攻击
闪避攻击是指通过修改输入,让 AI 模型无法对其正确识别。闪避攻击是学术绝研究最多的一类攻击,下面是学术界提出的最具代表性的三种闪避攻击:
**对抗样本:**深度学习系统容易受到精心设计的输入样本的影响,通常是在正常样本上添加人眼难以察觉的微小扰动,欺骗模型误判。
**物理世界中的攻击:**在模型应用后,对真实世界中的路标进行涂改,也可以使得模型产生识别错误。
**传递性与黑盒攻击:**生成对抗样本需要知道AI模型参数,但是攻击者有可能无法得到模型参数。但是研究发现,针对使用相同数据集进行训练的模型,对一个模型生成对抗样本也能欺骗另一个模型。
药饵攻击(数据投毒)
AI 系统通常用运行期间收集的新数据进行重训练,以适应数据分布的变化。在这种情况下,攻击者可能通过注入精心设计的样本,即药饵来使得训练数据被污染,危害整个系统的正常功能,例如逃逸AI的安全分类等。
并且有研究表明,即使在训练样本中掺杂少量的恶意样本,也能很大程度干扰AI模型准确率。
后门攻击
AI模型可以被嵌入后门,并且只有制造后门的人知道如何出发,其他人很难发现。
该类后门十分隐蔽,神经网络由参数构成,不具有可读性。
例如,在图分类模型中,只有输入图像包含特定图案才能触发后门。
此类攻击多发于模型生成和传输过程中。
模型窃取攻击
多次调用模型接口,构建相似的模型,将 AI 模型窃取出来。
安全防御手段
安全手段主要分为三个层次
攻防安全
针对已知的攻击进行,有针对性的防御。
- 防闪避攻击
- 防药饵攻击
- 防后门攻击
- 防模型窃取
模型安全
通过模型验证等手段提升模型健壮性。
- 数据可解释
- 可验证模型
- 模型健壮性
- 可解释模型
架构安全
在AI部署的业务中设计不同的安全机制保证架构安全。
- 隔离与检测
- 冗余与熔断
- 多模型架构
- 数据自洽性
防御技术
闪避攻击防御技术
- 网络蒸馏
- 对抗训练
- 对抗样本检测
- 输入重构
- DNN模型验证
数据投毒防御技术
- 训练数据过滤
- 回归分析
- 集成分析
后门攻击防御技术
- 输入与出来
- 模型剪枝
模型/数据防窃取技术
- 隐私聚合教师模型(PATE)
- 差分隐私
- 模型水印
AI 模型可解释性
除了针对已知攻击做防御外,还应增强AI模型本身安全性。
模型可检测性
前溃检测进行恶意样本过滤,后溃检测模块减少误判。
模型可验证性
模型验证一般需要约束输入空间(input space)与输出空间(output space)的对应关系,从而验证输出在一定的范围内。但是基于统计优化(optimization)的学习及验证方法总还是无法穷尽所有数据分布,而极端攻击则有机可乘,这样在实际应用中较难实施具体的保护措施。只有在对DNN模型内部工作机理充分理解的基础上才能进一步解决机制性防御(principled defense)问题。
模型可解释性
有些业务需要 AI 系统给出判断依据,但是现在还是一个黑盒子。
学术界正在对 AI 模型的可解释性进行积极探索:
- 建模前的数据可解释
- 构建可解释模型
- 对已构建的模型进行解释性分析
AI业务的安全架构
设计安全的 AI 业务架构,需要综合利用隔离、检测、熔断和冗余等安全机制。
- 隔离
- 检测
- 熔断
- 冗余