
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于专家知识的威胁情报联合抽取模型TIJERE:网络安全知识图谱构建的新方法
【字体: 大 中 小 】 时间:2025年08月31日 来源:Knowledge-Based Systems 7.6
编辑推荐:
网络安全领域面临实体关系联合抽取(JE)中的特征混淆、语义模糊等挑战,本研究提出基于多序列标注表示(MSLR)的TIJERE模型,集成SecureBERT+语言模型和专家领域特征(EDF),在公开数据集DNRTI-JE上实现NER任务F1值0.93、RE任务0.98的突破性性能,为自动化威胁分析建立新基准。
在数字化时代,网络安全威胁呈现高度复杂化和组织化特征,高级持续性威胁(APT)攻击者通过精心设计的战术、技术和程序(TTPs)渗透目标系统。传统基于非结构化文本分析的威胁情报处理方式,面临着实体关系联合抽取中的特征混淆、语义模糊和重叠关系等核心挑战。现有方法如管道式抽取(PE)存在错误传播问题,而联合抽取(JE)模型又受限于通用语言模型对网络安全专业术语的识别能力。这些瓶颈严重制约着网络安全知识图谱(CKG)的自动化构建,进而影响威胁分析的效率和准确性。
为突破这些限制,Inoussa Mouiche和Sherif Saad在《Knowledge-Based Systems》发表的研究中,创新性地提出了TIJERE框架。该研究通过三个关键技术路径实现突破:首先采用多序列标注表示(MSLR)将每个实体对生成独立序列,解决重叠关系问题;其次整合专家领域特征(EDF)包括实体掩码和实体类型,增强语义区分度;最后利用网络安全专用语言模型SecureBERT+提升领域术语识别能力。实验基于作者团队构建的首个公开联合标注数据集DNRTI-JE,包含6,592个句子、13类实体和15种关系。
研究结果部分,MSLR机制的表现尤为突出。通过为每个实体对创建独立序列并整合EDF特征,模型在保留原始实体标签的同时,有效区分了"APT29使用Mimikatz"和"Mimikatz针对XYZ银行"等重叠关系。消融实验证实,单独使用实体类型特征可使关系抽取F1值从0.44跃升至0.97,结合实体掩码后达到0.98的顶尖水平。在架构对比中,SecureBERT+-BiGRU-CRF组合展现出最优性能,其双向门控循环单元能更好捕捉网络安全文本的序列特征。
讨论部分强调了该方法的理论价值和应用前景。TIJERE的创新性体现在将专家知识系统编码为可计算特征,使模型能像安全分析师一样理解"HackOrg-Tool"实体对隐含"uses"关系。虽然需要额外的数据建模工作,但其在生物医学、金融等领域的跨学科适用性已得到验证。作者开放的DNRTI-JE数据集为后续研究提供了重要基准,而模型在实时威胁情报管道中的集成应用,将显著提升攻击预测和防御策略制定的效率。
这项研究标志着网络安全信息抽取从模型驱动向数据-知识双驱动范式的重要转变。通过弥合专家知识与机器学习之间的语义鸿沟,TIJERE不仅解决了联合抽取中的关键科学问题,更为构建动态可演化的网络安全知识图谱奠定了方法论基础,对实现主动防御体系具有深远意义。
生物通微信公众号
知名企业招聘