基于多级注意力机制与混合原型网络的威胁情报少样本关系抽取方法研究

【字体: 时间:2025年05月12日 来源:Array 2.7

编辑推荐:

  网络安全威胁日益复杂,研究人员针对威胁情报(CTI)领域标注数据稀缺的问题,提出基于多级注意力机制和混合原型网络(RETI-MA-HP)的少样本关系抽取方法。该模型通过自训练模块优化BERT编码器,结合对比学习增强原型网络,在构建的CTI数据集上实现75.44%的准确率,较基线模型提升15.5%,为低资源场景下的威胁分析提供新思路。

  

随着网络攻击手段的不断升级,网络安全威胁情报(CTI)分析成为保障数字资产安全的关键。然而,该领域面临两大核心挑战:一是威胁报告具有高度敏感性,导致标注数据极度稀缺;二是攻击技术快速迭代,历史数据迅速失效。传统监督学习方法因依赖大规模标注数据而难以适用,如何从有限样本中精准提取实体间语义关系成为亟待解决的难题。

为解决这一挑战,国内某研究机构的研究人员创新性地将少样本学习理念引入威胁情报分析领域,提出名为RETI-MA-HP的新型关系抽取框架。该研究通过融合多级注意力机制与混合原型网络,在仅需少量标注样本的情况下,实现了对15类安全实体和13种关系类型的准确识别,最终成果发表在《Array》期刊。

研究团队采用三项关键技术:1)基于BERT的预训练语言模型作为特征编码器,通过自训练模块利用未标注数据增强领域适应性;2)设计包含特征级和实例级的双重注意力机制,分别从支持集样本和关系描述文本中提取关键特征;3)构建混合原型网络,整合全局特征与局部特征,并引入对比学习模块优化原型空间分布。实验数据来源于手工标注的2033条CTI样本,涵盖APT报告、安全新闻和ATT&CK记录等多源数据。

【多级注意力机制】通过计算支持实例与关系文本的交互注意力权重(公式8-9),显著提升关键特征表示能力,使模型准确率提升4.8%。实例级注意力则通过查询实例动态调整支持样本权重(公式14-15),有效降低噪声干扰,带来5.7%的性能增益。

【混合原型网络】突破传统原型网络仅用支持集计算原型的限制,同时整合关系描述文本特征(公式16)。实验表明,该设计使模型在5-way-5-shot任务中准确率达到67.13%,较基础原型网络提升3.6%。

【自训练与对比学习】自训练模块通过伪标签扩增策略(图7),利用未标注数据优化BERT编码器,带来6.4%的精度提升。对比学习模块则以关系描述为锚点(图8),通过拉近正样本距离、推开负样本距离(公式23-25),有效区分语法相似的威胁描述,使分类错误率降低3.1%。

最终优化的RETI-MA-HP(ST+CL)模型在5-way-5-shot任务中达到75.44%的准确率,较现有最优模型提升8.17%。该研究的突破性体现在三方面:首先,构建首个涵盖APT攻击全生命周期的CTI专用数据集;其次,创新性地将自训练与对比学习结合,解决少样本场景下的数据利用难题;最后,提出的混合原型架构为跨领域少样本学习提供通用框架。这些成果不仅推动威胁情报分析的自动化进程,也为医疗健康、金融风控等低资源领域的知识抽取提供重要参考。未来工作将聚焦于CTI场景下的端到端三元组抽取,进一步推动网络安全防御体系的智能化发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号