MM-AttacKG：一种结合大型语言模型的多模态攻击图构建方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：MM-AttacKG: A Multimodal Approach to Attack Graph Construction with Large Language Models

【字体：大中小】 时间：2026年02月05日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　威胁情报分析中，攻击图构建存在视觉信息利用不足的问题。本文提出MM-AttacKG框架，通过多模态大语言模型实现图像威胁信息解析与文本攻击图构建的融合。首先设计迭代问答机制提取图像关键要素，再经知识注入增强模型理解，最终通过多维度评估优化信息提取质量。实验表明该框架能有效整合CTI报告中的图文信息，显著提升攻击图完整性（

张永恒|赵新云|马云山|马浩凯|关英晓|杨国正|卢玉良|王翔

中国国防科技大学电子工程学院

摘要

网络威胁情报（CTI）解析旨在从海量数据中提取关键威胁信息，并将其转化为可操作的情报，以提高威胁检测和防御效率，包括攻击图构建、情报融合和指标提取。在这些研究主题中，攻击图构建（AGC）对于可视化和理解CTI报告中的潜在攻击路径至关重要。现有方法主要仅从文本数据构建攻击图，以揭示攻击行为序列中实体之间的逻辑威胁关系。然而，它们通常忽略了视觉模式中固有的具体威胁信息，而这些信息保存了CTI报告中多模态的关键细节。受到多模态大型语言模型（MLLMs）卓越的多模态理解能力的启发，我们探索了它们在增强多模态攻击图构建方面的潜力。具体来说，我们提出了一个新框架MM-AttacKG，它可以有效地从威胁图像中提取关键信息，并将其整合到攻击图构建中，从而提高攻击图的完整性和准确性。该框架首先使用威胁图像解析模块从图像中提取关键威胁信息，并利用MLLMs生成文本描述。随后，它构建了一个针对图像解析的迭代问答流程，以精细化对威胁图像的理解。最后，通过MLLMs实现攻击图与基于图像的答案之间的内容级整合，完成威胁信息的增强。我们构建了一个新的多模态数据集AG-LLM-mm，并进行了广泛的实验来评估MM-AttacKG的有效性。结果表明，MM-AttacKG能够准确识别威胁图像中的关键信息，并显著提高多模态攻击图构建的质量，有效解决了现有方法在利用基于图像的威胁信息方面的不足。代码和相应的数据集将在接受后发布。

引言

随着网络攻击频率和复杂性的增加，它们对现代网络安全防御构成了重大挑战。攻击图通过图形化方式描绘攻击的进展，通过相互连接的节点表示各个攻击步骤、被利用的漏洞和目标资产，成为应对这些日益严重的威胁的有效手段（参见Li等人[1]、Satvat等人[2]、Gao等人[3]、Aksu等人[4]、Husari等人[5]的研究）。攻击图构建（AGC）是系统生成此类图表的任务，依赖于多种数据源，如系统日志、人工策划的知识和网络威胁情报（CTI）报告。其中，CTI报告尤其具有前景。它们提供及时准确的威胁情报，有助于识别关键攻击路径并关注高风险威胁（参见Lee等人[6]、Oye等人[7]、Loganathan等人[8]、Masum [9]的研究）。由于其巨大的应用价值，攻击图构建任务吸引了学术界和工业界的广泛关注。

关于攻击图构建方法的研究经历了以下几个阶段。在初期阶段，研究人员通过专家知识建立了规则，基于正则表达式提取了妥协指标（IoCs），并构建了攻击图框架（参见Satvat等人[2]）。然而，这种方法受到正则表达式固定模式和专家主观理解的局限，难以适应网络攻击者不断变化的战术和技术。为了解决这些挑战，提出了基于深度学习的方法，如AttacKG和ThreatKG（参见Li等人[1]、Gao等人[3]）。结合深度学习显著提高了攻击图的构建效率。尽管如此，模型选择的复杂性和对标记数据质量的严格要求给实际应用带来了挑战。随后，随着大型语言模型（LLMs）的巨大成功，越来越多的研究人员开始探索使用LLMs来解决攻击图构建的挑战。这些开创性工作探索了在攻击图构建任务中应用LLMs的方法，例如使用上下文学习（ICL）对威胁数据进行自动标记（Abdi等人[10]）、威胁实体识别（Chen等人[11]）和威胁事件提取（Zhang等人[12]）。与传统方法相比，基于LLM的方法在有效性、可用性和可扩展性方面表现出优势。

然而，当前研究中存在一个显著差距：绝大多数自动化攻击图构建方法仅依赖文本数据，很大程度上忽略了CTI报告中丰富的上下文信息。这些视觉元素通常以更直观的方式描绘复杂的攻击流程、系统架构或恶意软件行为，对于理解完整的攻击叙述至关重要。忽视这些信息可能导致构建出不完整甚至不准确的攻击图。因此，我们的核心研究动机是探讨如何有效利用多模态大型语言模型（MLLMs）的能力，实现CTI报告中视觉和文本信息的深度融合，以构建更全面和准确的攻击图。

为了弥合这一差距，我们旨在将图像整合到网络威胁分析中，以构建多模态攻击图。尽管图像理解研究已经相当成熟，但我们在这一任务面临三个主要挑战（参见He等人[13]、Dosovitskiy等人[14]、Radford等人[15]）：首先，领域特定知识是必不可少的。分析文本网络安全数据需要领域知识来增强LLMs对威胁上下文的理解（参见Chen等人[11]、Zhang等人[12]）。同样，现有的通用LLMs缺乏有效解析网络特定视觉语义（例如网络图、入侵检测警报）的机制，限制了它们在威胁图像分析中的效果（挑战1）。其次，一张图片胜过千言万语。制定策略以精确高效地从威胁图像中捕获最关键的信息对于攻击图构建至关重要。因此，需要一种新的提示方法来释放LLMs的潜在能力（挑战2）。最后，威胁信息提取的质量至关重要。先前的研究（参见Li等人[16]）表明，通过图像特征探索提高性能通常依赖于大量标记的训练数据。然而，这样的标记数据集往往缺乏对多样化的攻击图构建任务的泛化能力。因此，迫切需要一种能够优化提取的威胁图像信息的自监督机制（挑战3）。

为了解决上述挑战，我们开发了一个名为MM-AttacKG的多模态攻击图构建框架。具体来说，为了解决第一个挑战，我们将网络安全知识整合到威胁图像解析中。在使用LLMs时，提示学习和知识注入增强了威胁图像解析结果的专业性和相关性。然后，为了解决第二个挑战，我们将威胁图像解析重新定义为一种迭代问答过程，这一过程受到人类头脑风暴的启发。每个问题都针对攻击图构建的特定方面。在每次迭代中，系统地生成问题以探究图像中的关键方面，确保对其意义进行有针对性的探索。最后，为了解决第三个挑战，我们设置了两种答案优化范式。从多个维度评估答案内容，并进一步优化解析的威胁信息，以提高威胁信息提取的质量。为了评估我们的方法，我们通过整合来自威胁情报的图像构建了一个探索性数据集，我们称该数据集为AG-LLM-mm。最终评估结果表明，当补充视觉信息时，多模态攻击图比基于文本的攻击图具有更丰富的威胁信息。主要贡献如下：

•

据我们所知，这是LLMs时代首次全面研究利用视觉信息进行攻击图构建的研究。

•

我们提出了一个多模态攻击图构建框架（MM-AttacKG），能够有效地从图像中识别威胁信息，并将其整合到基于LLM的攻击图构建过程中。

•

广泛的实验表明，我们的框架能够有效识别嵌入在威胁图像中的重要信息，视觉信息可以增强攻击图构建的完整性。此外，这些发现指出了未来研究的有希望和相关方向。

本文的其余部分组织如下：第2节回顾了攻击图生成和多模态网络安全分析的相关工作。第3节定义了与我们研究相关的关键概念和术语。第4节详细阐述了我们提出的MM-AttacKG框架的整体架构及其关键模块。第5节介绍了我们的实验设置、评估结果和深入分析。最后，第6节总结了本文并讨论了未来的研究方向。

问题表述

当前关于多模态攻击图构建的研究没有严格的范式。具体应用场景会影响攻击图的表征和结构。为了正式定义问题，我们采用了基于文本的攻击图工作中的攻击图定义作为基础。

CTI报告。CTI报告是一种基于证据的、结构化的分析，涵盖了背景、机制、妥协指标、潜在影响以及相关的可操作建议。

方法

所提出的框架在图3中进行了概述。我们的方法MM-AttacKG包括五个阶段，这些阶段无缝实现了从威胁图像解析到多模态攻击图融合的工作流程。第4.1节概述了头脑风暴程序，旨在明确威胁图像解析的关键方面。第4.2节定义了威胁信息提取过程，该过程专门设计用于从威胁图像中准确提取与威胁相关的信息。第4.3节

评估

我们进行了广泛的实验来回答以下研究问题：

•

RQ1：MM-AttacKG与现有的威胁信息提取器的表现如何？（见第5.2节）

•

RQ2：MM-AttacKG在利用威胁图像信息增强攻击图方面有多有效？（见第5.3节）

•

RQ3：MM-AttacKG中的每个关键模块是否有效？（见第5.4节）

•

RQ4：MM-AttacKG框架中的每个技术模块如何运作？（见第5.5节）

结论

在这项工作中，我们首次将CTI图像引入攻击图构建中，分析了图像信息在网络威胁情报分析过程中的作用。

利用LLMs卓越的多模态信息理解能力，我们提出了一个自动化的基于LLM的框架（MM-AttacKG）来构建多模态攻击图。鉴于MLLMs的性能优势和CTI图像的解析要求，我们设计了一个多阶段提示方案

未引用的参考文献

图1和图4。

科学写作中关于生成式AI的声明

生成式AI和AI辅助技术仅应用于写作过程，以提高手稿的可读性和语言表达。

CRediT作者贡献声明

张永恒：撰写——原始草稿、软件、方法论、数据管理、概念化。赵新云：撰写——审阅与编辑、监督、形式分析、概念化。马云山：撰写——审阅与编辑、可视化、调查、数据管理。马浩凯：撰写——审阅与编辑、可视化、调查、数据管理。关英晓：撰写——审阅与编辑、可视化、调查、数据管理。杨国正：撰写——审阅与编辑，

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

该项目得到了安徽省网络安全态势感知与评估重点实验室开放基金的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号