Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and Data Poisoning Attacks
Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and Data Poisoning Attacks abstract。
解决的问题
提出一个用于数据投毒和后门攻击的标准化测试床。
当前的数据投毒攻击大致可以被分为两类:
后门攻击,嵌入触发器
无触发器攻击
通过观察发现现有的投毒攻击有以下问题:
数据投毒针对特定框架和训练协议,很难适应现实环境中的场景
攻击成功很大程度上取决于数据集的大小,与所占百分比无关
干净标签攻击并非如其所述人类无法分辨
本文提出的测试框架可以在现在流行的框架上测试攻击的有效性,针对的攻击是可以导致指定样本误分类的攻击。
后门攻击和无触发器的攻击有以下几个重要的不同:
后门攻击在预测阶段通过添加一个触发器来改变样本分类
后门攻击可以使得任意分类的样本被误分类到指定类别,通过特定触发器
无触发器攻击则是误分类特定样本
当然无触发器攻击也可分类一组图片,为了保持一致这里进针对单张图片的无触发器攻击和整图的后门攻击
投毒攻击
Feature Collision(FC)
...
FedEval: A Benchmark System with a Comprehensive Evaluation Model for Federated Learning
FedEval: A Benchmark System with a Comprehensive Evaluation Model for Federated Learning abstract。
解决的问题
因为评估矩阵的不一致和缺乏通用的平台,联邦学习领域的评估结果缺乏完整性,并且很难作比较。
因此提出针对联邦学习的综合评估框架。
Introduction
文章提出了 ACTPR 模型来对联邦学习进行系统的评估,这五个方面分别是:
accuracy
communication
time consumption
privacy
robustness
当然,现有的研究已经在各个方面给出了不同的评估矩阵:
Architecture
联邦学习框架
Homepages of existing federated learning frameworks
123456TFF: https://www.tensorflow.org/federatedFATE: https://github.com/FederatedAI/FATEPaddleFL: https://github.com ...
NIC: Detecting Adversarial Samples with Neural Network Invariant Checking
NIC: Detecting Adversarial Samples with Neural Network Invariant Checking abstract。
Architecture
NIC 近似模拟了神经元激活模式的分布,然后通过比较近似分布与包含触发器的恶意样本的激活,来检测异常输入。
本文基于两个主要观察,发现攻击主要是通过攻击以下两个通道实施的:
Provenance Channel, 该特征表示模型不够稳定,当前层神经元轻微改变后会导致下一层神经元激活情况会发生改变
Value Channel, 该特征表示在前一层神经元发生轻微改变后,当前层的神经元激活值与正常样本的激活值存在巨大差距
基于以上观察的特点,以及对于攻击的分析提出基于不变值违规情况的攻击检测,our overarching idea is to check invariant violations during DNN computation.
Detail
由于模型的不确定性,模型的不变特征本质上是由模型表现的概率分布。因此:
构建 DNN 的值不变特征就是为各个层训练一组模型,用以描述良 ...
Callisto: Entropy based test generation and data quality assessment for Machine Learning Systems
Callisto: Entropy based test generation and data quality assessment for Machine Learning Systems abstract。
解决的问题
机器学习系统越来越对地被应用,因此急切需要对基于机器学习的模型进行验证。
Abstract
因此本文提出了 Callisto,一个用于生成测试用例和数据质量评估的框架。
其中,数据质量评估为数据中误标签识别。
收获与总结
数据质量评估中包括误标签识别
Jiangwen Sun, Feng-ying Zhao, Chong-Jun Wang, and Shifu Chen. Identifying and correcting mislabeled training instances. In Future Generation Communication and Networking, FGCN 2007, Ramada Plaza Jeju, Jeju-Island, Korea, December 6-8, 2007, Proceedings, pages ...
Threats, attacks and defenses to federated learning: issues, taxonomy and perspectives
Threats, attacks and defenses to federated learning: issues, taxonomy and perspectives abstract。
解决的问题
前人工作只综述了训练阶段联邦学习面临的问题,本文总结了联邦学习整个生命周期面临的问题。
联邦学习全周期流程
联邦学习被分为三个方面:
数据和行为审计阶段
训练阶段
预测阶段
数据和行为审计阶段
因为 local worker 对数据有着完全的控制权,所以是的数据质量审计和历史行为审计很难开展。被随意篡改的数据可以危害模型的性能表现甚至植入后门等。
由于联邦学习的分布特性,并且数据在各个节点设备上,导致很难对其开展数据质量评估(the Data Quality Assessment)。
其他方法则是针对历史行为展开分析。
训练阶段
训练阶段会遭受投毒攻击、隐私推断攻击等。
Privacy leakage
导致隐私推断攻击的主要原因有:
嵌入层的泄漏
全连接层的泄漏
模型梯度的泄漏
具体攻击有:
Membership inference attacks
Class repr ...
Privacy and Robustness in Federated Learning: Attacks and Defenses
Privacy and Robustness in Federated Learning: Attacks and Defenses abstract。
解决的问题
传统的中心式的机器学习方法无法有效处理隐私问题,联邦学习作为一种替代方案近年来得到发展。但是隐私问题并没有得到根本的解决,因此本文针对联邦学习面对的攻击和对应的防御手段对近5年的研究做出综述。
Introduction
根据分布式情况对联邦学习分类
Horizontally federated learning, HFL
HFL to business, H2B
HFL to consumers, H2C
Vertically federated learning, VFL
Federated transfer learning, FTL
根据架构情况对联邦学习分类
FL with Homogeneous Architectures
FL with Heterogeneous Architectures
联邦学习面临的威胁
面临的威胁主要来自两个方面:
malicious server
adversari ...
数据集异常值检测相关工作调研
数据集异常值检测相关工作。
相关工作
通过几篇文章简单调研投毒攻击与异常值检测相关工作:
Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks, and Defenses
Robust Learning-Enabled Intelligence for the Internet of Things: A Survey From the Perspectives of Noisy Data and Adversarial Examples
Outlier Detection: Methods, Models, and Classification
Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks, and Defenses
在 Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks, and Defenses 中的 ...
Enabling Efficient Cyber Threat Hunting With Cyber Threat Intelligence
Enabling Efficient Cyber Threat Hunting With Cyber Threat Intelligence abstract。
解决的问题
基于日志的网络威胁搜寻已经成为了应对复杂攻击的重要解决方案,然而现有方法需要人工查询构建,并且忽略了开源网络威胁情报提供的丰富外部威胁知识。
为了弥补这一差距,本文提出一种方案。
Architecture
整个系统包含两个子系统:
威胁行为提取过程,自动提取威胁情报中的知识
基于系统日志的查询子系统
数据存储
数据去冗余和存储的设计。
威胁行为提取
一共分为10步:
分块,Line 3
IOC 识别和 IOC 保护, Line 5
分句, Line 6
依赖解析,Line 7
树注释,Line 10
树简化,Line 11
引用解决,Line14
IOC 扫描与合并,Line 16
IOC 关系提取,Line 18
威胁行为图构建,Line 20
威胁行为查询语言 Threat Behavior Query Language, TBQL
略
Logging to the Danger Zone: Race Condition Attacks and Defenses on System Audit Frameworks
Logging to the Danger Zone: Race Condition Attacks and Defenses on System Audit Frameworks abstract。
Workflow
如果用系统日志来辅助安全调查,其中一个前提是,该日志系统不能遭受攻击者攻击。
在这项工作中,我们通过展示和验证审计框架完整性的竞争条件攻击来挑战这一假设。
攻击利用了 I/O 和 IPC 活动的内在异步特性,表明攻击者可以在时间发生之后,在提交到日志系统之前,从系统缓冲区中获取修改有关其入侵的事件,从而绕过现有的保护措施。
通过引入 KennyLoggings 来防御我们的攻击,这是第一个满足同步完整性的基于内核的放篡改日志系统,这意味着他保证了事件发生时的放篡改问题。
You Are What You Do: Hunting Stealthy Malware via Data Provenance Analysis
You Are What You Do: Hunting Stealthy Malware via Data Provenance Analysis abstract。
解决的问题
对于传统检测工具而言,很难检测现在的具有隐蔽性的恶意软件。本文针对此问题提出一种方法来检测该类软件。
Architecture
思路及实现
为了检测隐蔽的恶意软件,决定 PROVDETECTOR 有以下特点:
仅学习正常数据的异常检测
使用因果路径,系统事件序列
仅学习溯源图上一部分因果路径
溯源图构建
略
表示提取 Representation Extraction
PROVDETECTOR 采用因果路径作为输入特征,具体因果路径示例如下:
直接从溯源图中提取出全部路径将会导致依赖爆炸问题,因此采用基于稀有度的路径选择算法进行路径选取,选 tok K。
嵌入 Embedding
即使获取了 top K 路径之后还存在着各种问题:
因果路径长度不同
节点和边的标签是非结构化数据,例如文件名
Intuition:将因果路径作为一个句子。
使用 doc2vec 的 PV-DM 模型来学习路径的嵌入 ...