云计算百科
云计算领域专业知识百科平台

MITRE ATT&CK文本标注的多标签分层分类模型

大家读完觉得有帮助记得关注和点赞!!!

摘要

MITRE ATT&CK 是一个网络安全知识库,它将威胁行为者和网络攻击信息组织成一套战术(描述威胁行为者进行攻击的原因和目标),每个战术都有一套技术(描述这些攻击中可能使用的方法)。ATT&CK 的一个主要应用是安全专家使用其战术和技术层次结构作为框架,来标注网络威胁情报报告、漏洞描述、威胁场景等,以促进下游分析。迄今为止,标注过程在很大程度上仍然是手动完成的。在本技术说明中,我们为 MITRE ATT&CK 文本标注任务提供了一个分层的“任务空间”特征描述,用以组织先前使用人工智能/机器学习方法实现自动化的努力,同时阐明了构建新方法的途径。为了说明其中一条途径,我们使用任务空间层次,通过在对通用网络威胁情报文本进行的实验上分阶段构建我们自己的多标签分层分类模型用于文本标注任务——使用可共享的计算工具并向安全社区公开释放模型(通过 https://github.com/jpmorganchase/MITRE_models)。我们的多标签分层方法在战术级别实现了约 94% 的准确率,在技术级别(当转换为多类分类时)实现了约 82% 的准确率。该模型仅依赖经典的机器学习方法,就达到或超过了最先进的性能——消除了对大型语言模型、检索增强生成、智能体或更复杂的分层方法(例如,算法适应方法或基于有向无环图的方法)的任何依赖。此外,我们展示了 GPT-4o 模型在战术级别的性能(约 60% 的准确率)显著低于我们自己的方法。我们还将基线模型扩展到由领域专家为金融应用生成的威胁场景语料库。

关键词​ MITRE ⋅ 网络安全 ⋅ 生成式人工智能 ⋅ 多标签分类 ⋅ 分层分类

1 引言

网络安全的形式化发展在 20 世纪下半叶开始形成(例如,分组交换、Diffie-Hellman 密钥交换、早期防病毒软件等),这主要归因于政府、行业和民用信息系统互联互通的急剧增加。过去 30 年互联网及相关技术的扩展和全球化,需要进一步推进安全实践(互联网安全协议、云安全协议等),以保护关键信息资源免受网络攻击及其造成的损失。事实上,过去几十年网络安全的范围不断扩大,促使政府和行业内的各个组织制定框架,以支持安全专家对网络攻击进行特征描述、检测、缓解和预防。

洛克希德·马丁公司提出了一个侧重于基于威胁的风险方面的网络安全框架,该框架改编自美国国防部的用于瞄准和打击对手的“杀伤链”方法以及用于破坏对手活动的“行动方案”模型。杀伤链方法模拟了对手向系统建立高级持续性威胁的进展阶段,以及每个阶段潜在的检测和缓解能力。对多个杀伤链随时间的分析产生了行为模式,这些模式被分层为战术和技术,分别表征对手攻击的“原因”和“方式”。

MITRE 公司生成并维护 ATT&CK 框架——一个从网络攻击的真实世界观察中构建的知识库,其中包括威胁行为者群体及其已知的攻击手段。ATT&CK 框架分层组织网络攻击信息,两个主要级别是表征对抗性活动的战术和技术。与杀伤链一致,战术对应于攻击的“原因”——表明对手的目标或理由,而技术对应于对手执行攻击的“方式”。ATT&CK 框架已在政府和行业内部被广泛采用和应用,用于威胁建模(参见 Crossman 等人,2025 年以及第 3 节中的具体应用)、威胁检测和狩猎、漏洞分析、控制验证以及更广泛的网络安全情报分析。

请注意,ATT&CK 框架并不绑定于特定的网络攻击阶段模型,这使得 ATT&CK 可以轻松地作为网络威胁情报标注框架发挥作用。事实上,安全分析师的主要任务之一包括阅读网络威胁情报报告,并使用 MITRE ATT&CK 战术和技术对文档及其内容进行标注,以促进下游分析。迄今为止,标注过程在很大程度上仍由分析师以手动方式进行。

在过去十年中,已经形成了一系列计算方法,旨在自动化(或半自动化)标注任务以减少分析师的繁琐工作(有关已建立和新兴方法的综述,请参见第 2 节)。在此背景下,我们在本技术说明中的贡献如下:

  • 一个分层的 MITRE ATT&CK 文本标注任务“任务空间”表述(第 2 节),用于组织现有的人工智能/机器学习方法并促进进一步发展;

  • 一个遵循任务空间级别,为通用网络情报文本“自下而上”分阶段构建基线多标签分层标注系统——该构建过程不受规范的“自上而下”人工智能/机器学习建模方法或架构的束缚,而是有机地封装了 CISA 为分析师指南中指定的“MITRE ATT&CK 映射最佳实践”,从实验开始构建;

  • 在构建过程中将我们的模型性能与 GPT-4o 进行比较(第 3 节);

  • 重新使用基线模型来引导新数据集建模的示例——使用 JPMC 内部安全专家生成的金融应用威胁场景语料库(第 3 节);

  • 发布一个可供安全社区下载和使用的标注系统版本(通过 https://github.com/jpmorganchase/MITRE_models)。

2 MITRE ATT&CK 文本标注任务表述

表 1:MITRE ATT&CK 文本标注的分层任务类型。

任务 ID

任务类型

ATT&CK 映射形式

输出详情

1

多类战术分类

D ↦ T

T 是从一组战术中选出的单个战术

2

多类技术分类

D ↦ T

T 是从一组技术中选出的单个技术

3

多标签战术分类

D ↦ { T₁, …, Tₙ }

Tᵢ 是从一组战术中选出的战术

4

多标签技术分类

D ↦ { T₁, …, Tₙ }

Tᵢ 是从一组技术中选出的技术

5

混合类型多标签分类

D ↦ { T₁, …, Tₙ }

Tᵢ 是从一组战术和一组技术中选出的战术和/或技术

6

多类分层分类

D ↦ (T₁, T₂)

T₁ 是战术,T₂ 是该战术的技术

7

多标签分层分类

D ↦ { T₁, …, Tₙ }

Tᵢ 是一个元组 (Tᵢ₀, Tᵢ₁, …, Tᵢₖ),其中 Tᵢ₀ 是战术,每个 Tᵢⱼ (j>0) 是该战术的技术

8

文本到文本分类

D ↦ T

T 是战术或技术(或两者)的文本描述

我们首先提供 MITRE ATT&CK 文本标注任务的一般表述,以便既组织现有关于其(半)自动化的研究工作,又阐明其基于人工智能/机器学习的建模进一步发展的潜在途径。这个如表 1 所示的“任务空间”表述为此类比较提供了清晰的层次,同时也作为在低资源稀疏数据设置下“自下而上”模型构建的路线图(如我们在第 3 节所示)。尽管全面回顾现有工作超出了本技术说明的范围(有关最新综述,参见 Büchel 等人,2025),我们随后简要回顾了公共领域已建立的、体现了通用标注任务不同层次实例化的相关研究工作(为每种类型列出参考文献)。

MITRE ATT&CK 文本标注任务采用以下一般形式:

att&ck : D ↦ T

其中 D 是文本文档,T 是 ATT&CK 知识库(本文中限于企业矩阵 v14)各个方面的形式化表示。最简单的形式是,D 是一个短文档,例如一个句子或短语,T 是单个战术或技术。然而,D 和 T 都可以变得复杂。输入 D 可扩展为段落、完整文档甚至文档集,以及主题从通用网络安全情报到威胁场景描述、威胁报告、网络攻击报告、漏洞描述等不同的文本(有关对应于 D 类型的现有标注语料库的综述,参见 Della Penna 等人,2025,以及基准测试参见 Alam 等人,2024)。形式化表示 T 可从单个战术或技术扩展到战术或技术的集合、战术连同技术的集合、战术和技术的文本描述、战术和技术的分层结构等。捕获 T 常见不同形式的命名和描述的任务类型(大致)按复杂性分层并在表 1 中给出了 ID。

我们逐步描述体现每种任务类型的现有工作如下。

在 ATT&CK 于 2013 年出现之后,实现标注任务自动化的最初努力主要依赖于专家精心构建的 ATT&CK 信息分类法和知识图谱,作为将网络威胁情报输入文本映射到已知图谱/分类条目的模糊字符串匹配算法的基础(参见 MITRE ATT&CK Extractor, MITRE D3FEND 了解最新版本,大致对应表 1 中的任务 ID 1 和 2)。虽然在一定程度上有效,但这些方法的僵化和不灵活性(依赖于网络威胁情报实体、关系和概念的经典自然语言处理基于句法和语义表示)导致了在新兴机器学习领域努力的启动(和后续扩展)(例如,Ayoade 等人,2018;Ampel 等人,2021;Rahman 等人,2024)。

威胁报告 ATT&CK 映射器(TRAM)项目最初是作为推动标注任务机器学习进展的网络安全社区努力开始的。后续的 TRAM 2.0 通过纳入已知有助于类似 ATT&CK 标注任务的新兴基于变换器的文本表示,将原始项目扩展到基本机器学习方法之外(另见 Alves 等人,2022;You 等人,2022;Rani 等人,2023;Rani 等人,2024),同时采用了多标签方法(表 1 中的任务 ID 3 和 4,关于多标签方法的更多信息参见 Mendsaikhan 等人,2020;Kuppa 等人,2021;Grigorescu 等人,2022)。然而,TRAM 中的标注任务仅限于 ATT&CK 层次结构内的技术级别。

相比之下,基于对抗性战术和技术的报告分类系统(参见 Legoy 等人,2020 和 https://github.com/vlegoy/rcATT)使用在 ATT&CK 框架的战术和技术级别独立训练的机器学习模型,为网络威胁情报报告标注战术和技术(在文档级别)(属于表 1 中的任务 ID 5)。该系统配备了一个用户界面,用于记录用户对自动标注输出的反馈,并利用其更新标注模型。然而,该方法在分类过程中并未捕获或利用战术和技术之间已知的层次关系(而是作为分类后处理步骤)。

TTPDrill 是一种基于本体的方法(相关方法参见 Satvat 等人,2021;Li 等人,2022;Alam 等人,2023),用于标注任务,它在将网络威胁情报报告中的句子映射到战术和技术时直接包含了战术和技术之间的层次关系(表 1 中的任务 ID 6)。其威胁行动本体是手动构建的,包含分层表示杀伤链阶段、战术和技术的字段,以及关于威胁行动类型的更具体信息。句子首先通过依赖解析器映射到本体,该解析器从其组成文本创建威胁行动“候选”,然后通过语义相似度计算将候选与本体条目进行比较。最佳匹配本体条目的战术和技术被分配给威胁报告中的每个句子(高于学习到的阈值)。一个缺点是,当多个此类标签可能与网络威胁分析相关时,映射仅为每个句子产生一个战术-技术对。

过去几年,越来越多的方法试图一方面直接解决 ATT&CK 标注任务的多标签性质,另一方面解决其层次性质(参见表 1 中的任务 ID 7)。这些方法吸收并整合了多标签分类(例如,问题转换与算法适应方法的发展,参见 Kassim 等人,2024)和分层分类(例如,基于树与基于有向无环图的方法,参见 Ramírez-Corona 等人,2016 等)通用领域在过去 20 年形成的进展,并与深度学习的并发进展相交织(参见 Liu 等人,2022;Li 等人,2024)。在下一节中,我们沿着表 1 中的任务空间层次构建我们的多标签分层 ATT&CK 标注模型。

最近的文本到文本方法(表 1 中的任务 ID 8)抽象掉了 ATT&CK 标注任务输出的多标签分层表征的结构,同时试图保留和扩展输出的性质。具体来说,映射的输出 T 不必是形式化结构,而是包含多标签分层结构所包含信息的文本(例如,输入文档 D 映射到一组战术和/或技术,而 T 可能还包含额外信息)。许多行业和研究团体(参见 Branescu 等人,2024;Fayyazi 等人,2024;Xu 等人,2024;Schwartz 等人,2025;Huang 等人,2024;Nir 等人,2025;Liu 等人,2025)正朝着 MITRE ATT&CK 标注的文本到文本分类方向发展。虽然我们保留了将多标签分层方法扩展到文本到文本分类的计划,但我们将在第 4 节简要评论它们。

图 1 用于 MITRE ATT&CK 文本标注任务的多标签分层分类系统。文档被分解成句子,并使用 TF-IDF 进行向量化。该系统提供了一种哈希技术,作为向量化过程的一部分对文本进行加密。分层分类的第一级 (a) 使用多标签分类模型预测前 n 个战术标签。第二级 (b) 使用特定于战术的多标签分类模型,以预测的战术为条件,为每个战术提供前 m 个技术标签。整个系统的输出 (c) 是一个包含 (n ∗ m) 个战术-技术对的结构。

3 多标签分层 ATT&CK 标注系统构建与评估

图 2 标题:基线网络情报文本数据集的战术计数。总计 (14405),其中防御规避 (2642),发现 (2287),命令与控制 (2072),执行 (1675),持久化 (1496),凭证访问 (869),收集 (820),权限提升 (547),初始访问 (525),资源开发 (395),影响 (336),横向移动 (265),侦察 (240),外泄 (236)。

我们的用于 MITRE ATT&CK 标注任务的完整多标签分层分类模型架构如图 1 所示。我们没有进行“自上而下”的架构选择——先验地选择一个人工智能/机器学习建模架构——而是采用“自下而上”的顺序方法构建架构,沿着表 1 中的任务空间层次逐步推进。此外,我们通过三个实验阶段的结果来推动沿着层次推进。前两个实验阶段依赖于一个包含 14405 个通用网络情报句子的数据集,每个句子都有一个对应的黄金标准 ATT&CK 战术和技术标签。这些数据由 JPMC 内部的网络安全专家编译和策划,以确保数据质量。数据集按战术的分布如图 2 所示。第三个实验阶段依赖于第二个数据集,包含从 JPMC 内部网络安全专家为银行内实际应用生成的威胁模型中提取的 552 个威胁场景。在这些数据点中,486 个至少有一个黄金标准战术标签,而 66 个没有战术标签(这些在实验中省略)。在 486 个有战术标签的数据点中,306 个有单个 ATT&CK 战术标签¹。其余 180 个数据点是多标签的。我们注意到数据集中的类别不平衡和稀疏性,并保持原样以更好地复现真实世界的数据条件。此外,考虑了类别不平衡的支持性实验显示了与我们主要实验相似的结果。

¹战术分布为:'初始访问' (87), '影响' (71), '收集' (50), '防御规避' (29), '外泄' (29), '横向移动' (24), '权限提升' (20), '凭证访问' (19), '发现' (15), '资源开发' (14), '执行' (8), '持久化' (7), '侦察' (2), '命令与控制' (1)。

实验阶段 1​ – 我们进行了一项试点研究,比较随机梯度下降支持向量机(来自 scikit-learn,在本文其余部分称为我们的基线多类 SGD 模型)与 GPT-4o 在多类战术分类(表 1 中的任务 ID 1)上的性能。具体来说,我们从 att&ck : D ↦ T 开始,将 T 限制为单个 ATT&CK 战术,并将 D 限制为句子。选择多类 SGD 模型是基于早期的实验结果,显示该模型类型在相同的多类任务上优于其他标准机器学习模型。模型的完整参数细节将随我们的公开版本一起发布。选择 GPT-4o 进行比较是因为在我们开始实验时,它是可用的最新版本。温度保持默认设置 1。

表 2:ATT&CK 战术标注试点研究的分类评估结果。结果显示,对于给定的网络情报输入句子,多类 SGD 模型在多类预测上通常优于 GPT-4o。

评估属性

多类 SGD 模型

GPT-4o

准确率

0.8195

0.59

F1 分数

0.7795

0.60

按战术解析的准确率

 

 

防御规避

0.8272

0.6345

发现

0.8969

0.6433

持久化

0.7903

0.5017

初始访问

0.7307

0.6286

收集

0.8424

0.6402

执行

0.8055

0.5194

横向移动

0.5957

0.6226

影响

0.7142

0.6716

命令与控制

0.8561

0.5783

凭证访问

0.7621

0.8046

权限提升

0.7130

0.2091

侦察

0.6388

0.6875

资源开发

0.8117

0.5190

外泄

0.5813

0.7234

网络情报数据被随机分成训练集(80%)和测试集(20%),确保每个集合中战术分布的真实代表性。多类 SGD 模型在前者上训练,在后者上评估。所有输入到多类 SGD 模型的文本首先被转换为向量表示,本例中为简单起见使用 TF-IDF。GPT-4o 模型在测试集上评估,通过将以下提示填充测试句子(一次一个),使用其文本形式而非向量化形式。

查看此网络情报文本,并使用本消息中提供给您的 MITRE 标签对其进行标注。
请严格按照以下 JSON 格式返回您的响应,不要使用 Markdown:
{
"Tag": "您的 MITRE 标签"
}
极其重要的是,您必须返回精确的“名称”值以获得最大奖励。

MITRE_TAGS:
* TA0006 – 凭证访问
* TA0002 – 执行
* TA0003 – 持久化
* TA0001 – 初始访问
* TA0005 – 防御规避
* TA0007 – 发现
* TA0008 – 横向移动
* TA0009 – 收集
* TA0010 – 外泄
* TA0043 – 侦察
* TA0040 – 影响
* TA0042 – 资源开发
* TA0011 – 命令与控制
* TA0004 – 权限提升

网络情报文本:{input-sentence}

请注意,这种 GPT-4o 标注方法在技术上是文本到文本分类(表 1 中的任务 ID 8),需要对其输出进行规范化,以确保生成的战术标签可与真实战术标签进行比较。

表 2 中的结果表明,我们的多类 SGD 模型在网络情报数据上的战术级别性能显著优于 GPT-4o。鉴于这些结果,以及多类 SGD 模型整体上占用空间小、可共享性和可扩展性,我们将其作为我们多标签分层分类系统的出发点。

实验阶段 2​ – 我们接下来进行了一组实验,以实现三个目标。第一个目标涉及多类 SGD 模型的“问题转换”,即使其行为更像多标签分类模型(向上移动到表 1 中的任务 ID 3)。第二个目标涉及将转换后的多标签 SGD 模型扩展到技术级别的分类,即使其成为真正的多标签和分层模型(向上移动到表 1 中的任务 ID 7)。第三个目标涉及确保用于训练模型的数据的安全性,以服务于公开版本,同时不损害模型性能。

表 3:网络情报基线数据集上的多标签分类评估结果。结果显示,当采用前 n 个标注方法时,战术级别的性能显著提高。此外,用于安全的数据哈希处理不会影响模型性能。

评估属性

使用多类 SGD 模型的多标签分类器

使用多类 SGD 模型的多标签分类器(哈希处理)

前 n = 3 准确率

0.8264

0.8105

战术准确率

0.9455

0.9427

技术准确率

0.8264

0.8105

预测正确的战术数

2724

2716

预测正确的技术数

2381

2335

两者都预测正确的数量

2381

2335

总预测数

2881

2881

按战术解析的前 n = 3 准确率

 

 

防御规避

0.9424

0.9597

发现

0.9635

0.9700

持久化

0.9537

0.9466

初始访问

0.8942

0.8654

收集

0.9576

0.9455

执行

0.9444

0.9306

横向移动

0.8723

0.8511

影响

0.9107

0.8750

命令与控制

0.9688

0.9736

凭证访问

0.9351

0.9297

权限提升

0.9130

0.9043

侦察

0.8333

0.8056

资源开发

0.9647

0.9412

外泄

0.9070

0.8605

对于第一个目标,我们简单地修改多类 SGD 模型的输出,使其成为预测的前 n 个战术(选择 n=3),而不是前 1 个战术(对应于图 1 中的 (a),n=3)。该多标签 ATT&CK 标注系统的性能通过标准的子集操作来衡量。也就是说,假设给定一个输入句子 S,其真实战术为 T,令 {T₁, T₂, T₃} 为前 3 个多标签 SGD 战术预测。当且仅当 {T} ⊆ {T₁, T₂, T₃} 时,S 的预测被认为是正确的(正式称为前 n 准确率,其中 n=3)。多类 SGD 模型在网络情报数据集上从头开始训练为多类模型,但随后使用多标签准确率方法进行评估。系统在战术级别的多标签准确率评估性能显示在表 3 的上半部分,准确率达到 94%,按战术解析显示在下半部分。虽然相对于实验阶段 1,SGD 模型性能的提升随着准确率公式的泛化是预期的,但按战术解析的结果改进支持将标注任务视为多标签而非多类。

对于第二个目标,我们通过简单地为每个战术相关的技术训练多类 SGD 分类器,将我们的战术级 SGD 模型扩展到技术级别。也就是说,我们首先将网络情报数据解析为特定于战术的数据集,然后训练特定于战术的多类 SGD 模型,使用相应战术特定数据集的随机 80-20 训练-测试分割,对该战术的技术进行多类预测。技术级别的多标签映射再次基于前 3 个多类 SGD 分类器输出(对应于图 1 中的 (b),m=3)。对于给定的输入句子,系统的最终预测是三个战术,每个战术与三个技术配对(对应于图 1 中的 (c),n=m=3)。假设在两个级别都限制前 n=3 个预测,多标签分层系统准确率定义如下。令 S 为具有真实战术和技术标签 (Tₐˢ, Tₑˢ) 的输入句子。令 {T₁, T₂, T₃} 为前 3 个多标签 SGD 战术预测,对于每个 Tᵢ,令 {Tᵢ₁, Tᵢ₂, Tᵢ₃} 为后续的技术预测。战术-技术预测被排列成一组九个对 { (Tᵢ, Tᵢⱼ) ∣ 对于 1 ≤ i, j ≤ 3 }。当且仅当 { (Tₐˢ, Tₑˢ) } ⊆ { (Tᵢ, Tᵢⱼ) ∣ 对于 1 ≤ i, j ≤ 3 } 时,S 的预测被认为是正确的。多标签分层系统的整体准确率显示在表 3 的上半部分,达到 82%。此外,该表显示技术从未与错误的战术预测一起被正确预测(即,“预测正确的技术数”与“两者都预测正确的数量”相同),显示了分层方法的优点。具体来说,MITRE ATT&CK 层次结构的适当有向无环图结构(一个技术可以有多个战术父项)可以使用多标签分层建模来处理。

对于第三个目标,系统包含一个哈希选项,该选项在向量化过程中对用于 SGD 模型训练的数据进行加密。我们使用 MurmurHash3 测试了我们的哈希选项,尽管其他选项可通过 scikit-learn 获得。哈希表示也通过 TfidfTransformer 运行以确保 IDF 加权。我们在战术级别从头开始训练了两个多类 SGD 模型(对应于图 1 中的 (a),n=3),使用网络情报数据,一个暴露于标准的 TF-IDF 向量,另一个暴露于基于哈希的向量。两个模型都使用上述战术级别的多标签准确率方法进行评估。整体比较结果如表 3 上半部分所示,在战术级别解析的结果如表 3 下半部分所示。请注意,加密方法不会显著影响系统性能。这使我们能够与社区共享模型,并对用于训练模型的敏感数据具有高度的安全性。

实验阶段 3​ – 我们最后的实验是双重的,研究多标签 SGD 模型在内容与通用网络情报数据不同的新数据集上的表现如何,以及“问题转换”后的多类 SGD 模型类型在具有真实黄金标准多标签的数据点上的表现如何。我们注意到这两个实验都是在威胁场景数据集上进行的,该数据集仅包含 486 个数据点,类别计数稀疏,并且仅在战术级别有标签——限制了对结果的解释。此外,由于数据集包含真正的多标签数据点,我们将实验阶段 2 的战术多标签准确率定义扩展如下。假设给定一个输入句子 S,其真实战术为 {T₁ˢ, T₂ˢ, …, Tₙˢ},令 {T₁, T₂, T₃} 为前 3 个多标签 SGD 模型战术预测。S 的正确预测数是集合交集 {T₁ˢ, T₂ˢ, …, Tₙˢ} ∩ {T₁, T₂, T₃} 的基数。这个公式将每个句子 S 的正确多标签预测数量限制为三个,然而只有七个数据点有四个或更多多标签,因此对性能的影响最小。

表 4:威胁场景的多标签战术级别分类评估结果。结果显示,在网络情报数据上训练的基线多标签 SGD 不能立即推广到威胁场景标注。然而,底层模型架构具有适应性,仅用少量训练数据就显示出改进。

评估属性

使用在网络情报数据上训练的多类 SGD 模型的多标签分类器

使用在威胁场景数据上训练的多类 SGD 模型的多标签分类器

前 n = 3 准确率

0.41

0.66

预测正确的战术数

54

88

总预测数

132

132

按战术解析的前 n = 3 准确率

 

 

防御规避

0.5

0.62

发现

0.42

0.57

持久化

0.75

0.25

初始访问

0.19

0.74

收集

0.60

0.75

执行

0.00

0.00

横向移动

0.16

0.16

影响

0.54

0.87

命令与控制

0.00

1.00

凭证访问

0.70

0.70

权限提升

0.00

0.40

侦察

0.00

0.00

资源开发

0.00

0.50

外泄

0.62

0.62

威胁场景数据被随机分成训练集(~80%)和测试集(~20%),在考虑数据稀疏性的情况下尽可能确保每个集合中战术分布的真实代表性。该分割产生了一个包含 111 个威胁场景句子的测试集,总共有 132 个战术真实标签(由于测试集包含多标签威胁场景)。所有文本数据再次转换为 TF-IDF 向量表示。在第一个实验中,威胁场景测试集简单地通过多类 SGD 模型运行,使用定义的集合交集基数计算战术预测准确率。在第二个实验中,一个多类 SGD 模型在训练集上从头开始训练为多类分类器,然后使用定义的集合交集准确率在测试集上作为多标签模型进行评估。表 4 中的结果显示,在网络情报数据上训练的基线多标签 SGD 不能立即推广到威胁场景标注。然而,底层模型架构具有适应性,仅用少量训练数据就显示出改进。虽然需要更多探索,但该方法符合低资源稀疏数据模型构建的思路。

4 回顾

在本技术说明中,我们首先提供了 MITRE ATT&CK 文本标注任务的通用“任务空间”表述,用以组织现有的人工智能/机器学习相关工作并促进进一步发展。该表述为我们“自下而上”分阶段为通用网络情报文本构建基线多标签分层标注系统提供了结构,因为我们基于实验结果在任务空间层次上逐步升级。我们的系统构建过程避开了规范的“自上而下”的人工智能/机器学习建模倾向,转而采用 CISA 为分析师指南中指定的“MITRE ATT&CK 映射最佳实践”。在我们的系统构建过程中,我们展示了我们的基线模型在多类战术预测上优于 GPT-4o。我们还展示了如何重新使用基线模型来引导新数据集的建模——在由 JPMC 内部安全专家为金融应用生成的一组威胁场景上例证了这种重新使用。我们还实现了一种保持模型性能的哈希方法,以支持我们向安全社区公开释放可供下载和使用的标注系统。

我们以在撰写本技术说明过程中得出的两个主要观察结果作为结束。第一个是,存在大量针对 MITRE ATT&CK 文本标注任务的方法。然而,安全专家广泛采用任何这些方法似乎很少,甚至不存在。在低资源稀疏数据设置中模型的可用性(特别是,如果可定制)可能是系统采用的先决条件,即使更先进的方法具有更高的性能分数。因此我们公开释放我们的系统,该系统设置和使用简单。

第二个观察结果是,网络安全社区对技术进步深感兴趣,因为它们既影响又促进网络安全活动。然而,在很大程度上,这个社区的高度专业化活动与丰富的人工智能/机器学习及其他领域的数学/技术文献之间存在差距,这些文献可以使社区努力受益。因此我们对 ATT&CK 标注任务进行了严格的表述,并映射到现有的网络安全工作。我们旨在以后的出版物中进一步弥合这一差距。

 

赞(0)
未经允许不得转载:网硕互联帮助中心 » MITRE ATT&CK文本标注的多标签分层分类模型
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!