You Are What You Do: Hunting Stealthy Malware via Data Provenance Analysis

You Are What You Do: Hunting Stealthy Malware via Data Provenance Analysis abstract。

解决的问题

对于传统检测工具而言，很难检测现在的具有隐蔽性的恶意软件。本文针对此问题提出一种方法来检测该类软件。

arch

为了检测隐蔽的恶意软件，决定 PROVDETECTOR 有以下特点：

略

PROVDETECTOR 采用因果路径作为输入特征，具体因果路径示例如下：

causal graph

直接从溯源图中提取出全部路径将会导致依赖爆炸问题，因此采用基于稀有度的路径选择算法进行路径选取，选 tok K。

即使获取了 top K 路径之后还存在着各种问题：

Intuition：将因果路径作为一个句子。

使用 doc2vec 的 PV-DM 模型来学习路径的嵌入，这个方法有几个优点：

对溯源数据进行观察得到以下观点：

基于溯源数据的特点，PROVDETECTOR 使用局部异常因子 Local Outlier Factor 作为检测模型，该方法是一种基于密度的方法。如果一个点的局部密度低于其邻居，则该点被视为异常值。

最终决策（Final Decision Making）：使用基于阈值的方法来做最终决定，这种方法可以在路径选择过程中提前停止，减少检测开销。