编辑推荐:
为解决汽车 CTI 知识挖掘数据缺失问题,研究人员构建 Acti 数据集,验证其可靠性,推动汽车 cybersecurity 研究。
在智能交通系统的舞台上,自动驾驶汽车(Connected Autonomous Vehicles,CAVs)的出现无疑是一颗璀璨的明星。它被视为全球交通行业的重大技术突破,有望通过提高效率、减少拥堵和降低事故等方式,极大地改善交通安全状况。然而,这颗明星的背后却隐藏着阴影。随着汽车的自动化和互联程度不断提高,黑客攻击的风险也在急剧上升。他们有了更多可乘之机,能够利用汽车的潜在攻击面,甚至获取车辆控制权。像远程控制功能、OTA(Over-The-Air)更新、互联网连接、外部设备以及充电基础设施等新兴特性,更是让潜在威胁变成了现实。在过去十年里,针对自动驾驶汽车的网络攻击在频率、规模和复杂程度上都呈指数级增长。这些攻击可能导致隐私泄露、经济损失、人员伤害,甚至危及国家公共安全。
面对这些严峻的挑战,传统的安全措施,如访问控制、防火墙、入侵检测和防御系统(IDPS)等,虽然发挥了一定作用,但也存在明显的局限性,例如被动防御、威胁识别能力有限等。因此,网络威胁情报(Cyber Threat Intelligence,CTI)成为了实现主动防御和及时应对未知或新兴威胁的理想途径。然而,CTI 数据的挖掘和分析需要从大量开源的非结构化文本中进行手动检查,这是一项极为耗时的任务。从海量非结构化数据中自动提取 CTI 知识,成为了汽车网络安全领域亟待解决的关键问题。
在此背景下,北京航空航天大学、湖南大学等机构的研究人员开展了深入研究。他们构建了一个专门用于挖掘 CTI 实体及其关联的汽车 CTI 数据集 Acti,为 CTI 建模提供了有力的数据支持。该研究成果发表在《Scientific Data》上,为汽车网络安全研究开辟了新的道路。
研究人员为开展此项研究,运用了多种关键技术方法。在数据收集阶段,他们主要通过两个渠道获取数据:一是从国家漏洞数据库(NVD)检索已发布的车辆相关网络安全漏洞信息;二是从专业的车辆威胁情报平台、网络安全会议、报告、文献等来源收集数据。在数据处理阶段,先定义汽车 CTI 本体来描述实体类别及其相互关系,再利用 Brat 工具进行手动联合注释,并将数据转换为 “BIOES - 实体类型 - 关系类型 - 实体角色” 的联合注释格式。此外,还运用了多种深度学习模型,如 BERT - BiLSTM - att - CRF、BiLSTM - dynamic - att - LSTM 等,对 Acti 数据集进行训练和评估。
下面来看具体的研究结果:
- 数据集构建:Acti 数据集包含来自三个网络威胁信息源的 908 个真实网络安全事件文本,涵盖 3678 个句子、8195 个安全实体实例和 4852 个实体 - 关系三元组。数据集中定义了 10 个与网络和物理世界相关的实体概念,以及 10 个语义关系类别,这些都源自汽车 CTI 本体的定义。
- 模型评估:研究人员使用多个深度学习模型在 Acti 数据集上进行 CTI 知识挖掘任务,以评估数据集的性能。结果显示,基于 BERT 的模型,尤其是 BERT - BiLSTM - att - CRF 表现更为出色,F1 分数达到 47.52%。这表明 BERT 能够更好地捕捉语法和语义信息,有效处理汽车 CTI 数据的复杂语义特征。
- 实体和关系分析:研究人员进一步评估了 “BERT - att - BiLSTM - CRF” 模型中各类实体和关系提取的性能指标。发现数据集中实体和关系实例存在不平衡的情况,“攻击向量”“位置” 和 “行动方案” 等实体类型的实例数量有限,导致模型对这些实体的识别能力受限,相应关系的 F1 分数也较低。此外,数据集中存在许多跨句关系实体,而现有模型仅考虑句子级别的实体 - 关系提取,忽略了跨句实体问题,但即便如此,实验仍证明了 Acti 数据集在提取汽车 CTI 数据实体和关系方面的可靠性。
在研究结论和讨论部分,研究人员指出,Acti 数据集虽然为汽车 CTI 研究提供了有价值的资源,但目前也存在一些局限性。例如,数据源相对单一,主要依赖公开的汽车网络安全报告,可能无法全面涵盖现实世界的攻击类型和威胁场景;数据集中实体和关系的分布不均衡;数据标注过程中存在主观性和一致性问题等。针对这些问题,研究人员提出了未来的改进方向,如扩展数据源,纳入多模态数据,建立详细的标注指南和标准,实施交叉标注验证机制,探索文档级实体 - 关系联合提取模型,以及开发自动化标注模型等。
总的来说,这项研究构建的 Acti 数据集为汽车 CTI 建模和安全分析提供了重要的数据基础,有助于及时识别潜在威胁,制定相应的安全措施。同时,研究结果也为进一步研究汽车网络安全与功能安全之间的关系提供了支持,推动了汽车网络安全领域的发展,对实现主动防御和动态安全管理具有重要意义。它为后续研究指明了方向,有望吸引更多研究者在此基础上深入探索,共同提升自动驾驶汽车的网络安全防护能力,让这颗交通领域的明星在安全的轨道上更加璀璨地闪耀。