AI Sec 简介

华为 AI 安全白皮书读书笔记，AI Sec 简介。

AI 安全风险

根据华为 AI 安全白皮书中所述，AI 系统在设计上面临五大安全挑战：

软硬件安全（从软件到硬件到模型，都可能存在漏洞或者后门，攻击者能够利用这些漏洞实施高级攻击）
数据完整性（训练时可能被添加了恶意数据，查询数据被添加了恶意噪声，导致模型误判）
模型保密性（服务提供者只提供查询服务，不直接公布模型及参数，但是攻击者通过多次查询能够生成相似的模型）
模型鲁棒性（训练模型时样本往往覆盖性不足，使得模型的鲁棒性不足；面对恶意样本时，无法给出正确的判断结果）
数据隐私（在用户提供训练数据的场景下，攻击者能够通过反复查询训练好的模型获得用户的隐私信息）

AI 模型面临的典型攻击方式

闪避攻击

闪避攻击是指通过修改输入，让 AI 模型无法对其正确识别。闪避攻击是学术绝研究最多的一类攻击，下面是学术界提出的最具代表性的三种闪避攻击：
**对抗样本：**深度学习系统容易受到精心设计的输入样本的影响，通常是在正常样本上添加人眼难以察觉的微小扰动，欺骗模型误判。
**物理世界中的攻击：**在模型应用后，对真实世界中的路标进行涂改，也可以使得模型产生识别错误。
**传递性与黑盒攻击：**生成对抗样本需要知道AI模型参数，但是攻击者有可能无法得到模型参数。但是研究发现，针对使用相同数据集进行训练的模型，对一个模型生成对抗样本也能欺骗另一个模型。

药饵攻击（数据投毒）

AI 系统通常用运行期间收集的新数据进行重训练，以适应数据分布的变化。在这种情况下，攻击者可能通过注入精心设计的样本，即药饵来使得训练数据被污染，危害整个系统的正常功能，例如逃逸AI的安全分类等。

并且有研究表明，即使在训练样本中掺杂少量的恶意样本，也能很大程度干扰AI模型准确率。

后门攻击

AI模型可以被嵌入后门，并且只有制造后门的人知道如何出发，其他人很难发现。
该类后门十分隐蔽，神经网络由参数构成，不具有可读性。
例如，在图分类模型中，只有输入图像包含特定图案才能触发后门。
此类攻击多发于模型生成和传输过程中。

模型窃取攻击

多次调用模型接口，构建相似的模型，将 AI 模型窃取出来。

安全防御手段

安全手段主要分为三个层次

攻防安全

针对已知的攻击进行，有针对性的防御。

防闪避攻击
防药饵攻击
防后门攻击
防模型窃取

模型安全

通过模型验证等手段提升模型健壮性。

数据可解释
可验证模型
模型健壮性
可解释模型

架构安全

在AI部署的业务中设计不同的安全机制保证架构安全。

隔离与检测
冗余与熔断
多模型架构
数据自洽性

防御技术

闪避攻击防御技术

网络蒸馏
对抗训练
对抗样本检测
输入重构
DNN模型验证

数据投毒防御技术

训练数据过滤
回归分析
集成分析

后门攻击防御技术

输入与出来
模型剪枝

模型/数据防窃取技术

隐私聚合教师模型（PATE）
差分隐私
模型水印

AI 模型可解释性

除了针对已知攻击做防御外，还应增强AI模型本身安全性。

模型可检测性

前溃检测进行恶意样本过滤，后溃检测模块减少误判。

模型可验证性

模型验证一般需要约束输入空间(input space)与输出空间(output space)的对应关系,从而验证输出在一定的范围内。但是基于统计优化(optimization)的学习及验证方法总还是无法穷尽所有数据分布,而极端攻击则有机可乘,这样在实际应用中较难实施具体的保护措施。只有在对DNN模型内部工作机理充分理解的基础上才能进一步解决机制性防御(principled defense)问题。

模型可解释性

有些业务需要 AI 系统给出判断依据，但是现在还是一个黑盒子。

学术界正在对 AI 模型的可解释性进行积极探索：

建模前的数据可解释
构建可解释模型
对已构建的模型进行解释性分析

AI业务的安全架构

设计安全的 AI 业务架构，需要综合利用隔离、检测、熔断和冗余等安全机制。

隔离
检测
熔断
冗余