编辑推荐:
随着网络攻击增加,虚假网络威胁情报(CTI)危害严重,且缺乏相关检测数据集。研究人员开展 LLM 生成 CTI 检测研究,建立数据集,评估多种检测方法。结果为后续研究奠定基础,对提升网络安全意义重大。
在如今这个数字化时代,网络就像一张无形的大网,将人们紧密相连。但与此同时,网络攻击也如影随形,而且变得越来越频繁和复杂。网络威胁情报(Cyber Threat Intelligence,CTI)本是帮助组织抵御网络攻击的有力武器,它通过处理各种网络安全来源的数据,为专业人员和组织提供有价值的见解。然而,随着网络安全信息的快速传播,虚假 CTI 的出现却成了一颗 “定时炸弹”。
想象一下,在网络安全的战场上,虚假的 CTI 就像敌方派来的 “间谍”,误导着防御者的决策。它可能会导致数据中毒攻击,使安全系统产生错误的警报,甚至让基于人工智能的网络防御模型陷入混乱。比如,在一些重大的网络事件中,虚假的威胁情报报告导致了攻击归因错误,引发了地缘政治冲突,还延误了应对行动。更让人担忧的是,如今人工智能技术的发展让虚假 CTI 的产生变得更加容易,连网络安全专家都可能被误导,难以分辨真假。而且,目前并没有公开可用的数据集专门用于虚假 CTI 检测研究,这无疑给网络安全工作带来了巨大的挑战。
为了攻克这些难题,来自多个研究机构的研究人员展开了深入研究。他们的研究成果发表在《Future Generation Computer Systems》上,为网络安全领域带来了新的希望。
研究人员采用了一系列关键技术方法来开展研究。首先,在数据收集阶段,他们使用了 CASIE 和 UMBC CyberBlogDataset 这两个互补的数据集,涵盖了长文和短文形式的 CTI 内容。然后,利用大语言模型(Large Language Model,LLM),如 GPT-2,对这些数据进行处理。通过在特定领域数据上的微调,生成合成的 CTI 数据。在评估阶段,采用了众包技术和先进的合成数据验证方法,从定性和定量两个角度对生成的 CTI 进行评估。最后,使用多种检测方法,包括传统机器学习模型、基于特定架构的增强检测模型以及 Transformer-based 模型等,对合成 CTI 进行检测。
下面来看看具体的研究结果:
- LLM 生成合成 CTI 的结果:通过对生成的 CTI 数据集进行分析,发现其长文本和短文本样本的标记分布模式与真实 CTI 样本相似,表明生成的 CTI 在形式上能够很好地模拟真实情况。
- 定性评估合成 CTI 的结果:通过设计问卷调查,邀请 125 名参与者对 CTI 样本进行判断和标注。结果显示,整体平均准确率仅为 56.45%。其中,IT 专业人员的准确率最高,为 66.22%,非 IT 人员的准确率仅为 47.96%。这说明生成的 CTI 对各类人员来说都难以区分真假。进一步的纵向研究发现,经过多次评估,IT 专业人员的准确率能提升至 85.71%,而非 IT 人员提升不明显,这表明专业训练对识别能力有重要影响。此外,研究还分析了影响人类判断的因素,发现信息的可读性、可信度和信心偏差都会影响判断,比如人们往往更倾向于相信由信任的人发布的信息。
- 定量评估合成 CTI 的结果:通过一系列定量指标,如情感得分、Jaccard 系数、Word Mover’s Distance(WMD)、词余弦相似度和句子级余弦相似度等对生成的 CTI 进行评估。结果发现,生成的 CTI 在多个维度上与真实样本相似,但词余弦相似度(使用 Scikit-learn 计算)在区分真假 CTI 时最为有效。通过双重排序方法和逻辑回归框架分析,发现基于词级的相似性指标比语义级的表示更能有效区分合成内容。
- 虚假 CTI 检测方法的性能:对多种检测方法进行评估,传统机器学习模型中随机森林表现最强,准确率为 68%,但整体效果有限。深度学习和 Transformer 方法中,RoBERTa 表现出色,准确率达到 93.65%,ELMo 模型准确率为 72.25%,而基于 GLTR 的模型表现不佳,OpenAI 的 AI 文本分类器准确率仅为 1.1%,且受文本长度影响较大。
在研究结论和讨论部分,研究人员指出,他们提出的框架具有重要的实际应用价值。利用生成的数据集和双重验证框架,组织可以构建自动化系统来检测虚假 CTI,并将其集成到现有的安全信息和事件管理(SIEM)平台或威胁情报平台(TIPs)中,帮助网络安全团队专注于高可信度的情报,降低风险。同时,该框架还可以用于开发定制工具,为网络安全分析师的培训提供帮助。然而,研究也发现,仅靠检测技术是不够的,还需要整合来源追踪和验证机制,如使用加密验证技术或多源交叉引用,以增强 CTI 的可信度。总之,这项研究为网络安全领域应对虚假 CTI 威胁提供了重要的参考,强调了多层防御的重要性,为后续研究和实际应用奠定了坚实的基础,对提升整体网络安全水平具有重要意义。