EXTRACTOR: Extracting Attack Behavior from Threat Reports abstract。

解决的问题

威胁情报对于有效识别和快速反应网络攻击来说十分重要,但是这些知识通常在大量的文本中,很难对其加以利用。
为了解决此问题,提出本文方法。

Architecture

arch

本文提供了一种新的方法和工具,可以从 威胁情报 报告中精确地自动提取简洁的攻击行为。

并且 EXRACTOR 对于文本不做强假设,能够从非结构化文本中提取攻击行为作为溯源图。

存在的挑战:

  • 文本冗长
  • 威胁情报文本复杂
  • 关系提取

实现

标准化

为了有效解决 威胁情报 CTI 的文本复杂性,必须找到一些重要句型,在此通过标准化实现。
标签化:

eg1

同质化
使用两个专门构造的词典对名词断语和动词执行同质化,将 CTI 报告中存在的名词和动词的不同行话和同义词映射到可以在审计日志中观察到的实体和操作。
转换
在此处 将被动语态转换成主动语态,有助于发现系统主体(过程)和系统对象,使因果关系推断更加准确。
使用 POS 和 DP 标记检测句子语态,然后进行转换。
经过此处的转换,长难句可以被转化为主动的短句。

解析

解析部分将引用同一实体的隐式引用与实际引用相协调。出于两个原因,隐式引用必须被转换为显式的:

  • 隐式引用降低了后续步骤的准确性
  • 审计日志仅包含明确命名的实体,并且 威胁搜寻方法 无法与系统进程与代词和其他隐式引用相匹配

省略主体解析
省略主语的句子大量存在在 CTI 报告中,因此该模块使用 POS 和 DP 解析以及系统调用字典解决这个问题。第一步检测缺少主语的句子,然后构建候选主语列表,挑选最有可能的候选者。

代词解析
为了解析代词,采用了一种流行的共指解析模型,在解析代词时效果最好,特别是经过前面的 ESR 和标记化步骤之后。

实体解析
给出了三种模式。为了识别句子中的实体,将 POS 标记与包含在 CTI 名词词典或每种情况下出现的常用短语语料库中的领域只是结合使用。一般是先检测上述罗列的三种形式之一,然后进行不同的处理。

汇总

去冗余,语句层次和字词层次。
arch

图生成

语义角色标签 Semantic Role Labeling, SRL

arch
在进行完了 RAW SRL 之后还需要进行 动作到系统调用的转换。

图生成器

先合并具有相同文本 SRL 参数到同一个几点钟,然后使用 SEE 修剪不是系统实体的单词。接下来,通过一下步骤生成图:

  • 点边点三元组
  • 边方向

系统实体抽取器 System Entity Extractor, SEE

使用 SEE 来抽取 SRL 生成的角色生成系统实体的简洁节点,并且修剪掉无法构成可能的系统实体的部分。

因果推理 casual inference

此步骤中确定图中边的正确方向,以表示节点之间的因果关系和信息流。