CESNET-TimeSeries24:网络流量异常检测与预测的宝藏数据集

【字体: 时间:2025年02月27日 来源:Scientific Data 5.8

编辑推荐:

  为解决网络流量异常检测和预测缺乏真实数据集问题,捷克 CESNET 和捷克技术大学研究人员创建 CESNET-TimeSeries24 数据集,为相关研究提供支持。

  在当今数字化时代,网络如同一张无形的大网,将人们紧密相连。无论是日常的网络冲浪、在线办公,还是各类智能设备的互联互通,都离不开网络的支持。而网络流量就像是这张大网中的 “血液”,源源不断地流动着,承载着各种信息。然而,这看似平静的网络流量背后,却隐藏着诸多安全隐患。恶意攻击、异常流量如同潜伏在暗处的 “黑客”,随时可能对网络安全造成威胁。
目前,网络流量监测在网络管理和计算机安全领域至关重要。基于网络的入侵检测和防御系统能够保护基础设施,抵御用户疏忽、违规行为以及内部蓄意攻击。但随着加密技术在网络中的广泛应用,网络流量的可见性大幅降低,就像给网络安全蒙上了一层神秘的面纱,使得网络安全的维护变得困难重重。
在这种情况下,通过机器学习技术对加密流量进行分类以检测安全威胁,成为了研究热点。其中,无监督异常检测在网络流量监测中发挥着关键作用,它能够检测出未知(零日)攻击。而基于流量预测的异常检测算法是其中一种常用方法,当预测值与观测值的差异超过设定阈值时,就可检测出异常。
近年来,预测和异常检测方法发展迅速,但由于缺乏长期数据集,网络流量监测预测方法的性能提升存在不确定性。并且,用于评估的真实世界数据集因隐私问题未公开,多数公开数据集为合成数据,无法准确反映真实网络情况。
为了解决这些问题,来自捷克 CESNET(Czech Education and Science Network)和捷克技术大学(Czech Technical University in Prague)的研究人员 Josef Koumar、Karel Hynek、Tomá? ?ejka 和 Pavel ?i?ka 开展了相关研究,创建了 CESNET-TimeSeries24 数据集。这一数据集对于评估基于预测的异常检测方法在实际环境中的应用具有重要价值。
研究人员在数据收集过程中,使用了一系列技术方法。该数据集来源于 CESNET3 网络(为捷克的公共和研究机构提供互联网接入的类似 ISP 的网络)的流量。由于 ISP 网络数据量巨大,研究人员采用标准的 IP 流监测系统,在网络边界进行监测。监测探针安装了 ipfixprobe(版本 4.11.0),它将数据包聚合为 IP 流记录,并通过 IPFIX 协议和 TLS 隧道将收集到的数据传输到 IP 流收集器服务器(安装有 IPFIXcol2,版本 2.2.1)。之后,经过过滤、聚合等处理,生成时间序列数据,并存储在 TimeScaleDB(版本 2.15.0)数据库中。同时,研究人员还对数据进行了匿名化处理,以保护用户隐私。
下面来看看具体的研究结果:
  • 整体数据集属性验证:对 40 周数据集的整体统计属性进行验证。数据显示,每日传输数据与周末和节假日相关,且与学期和考试期间也存在关联。不过,由于一个监测探针在 2024 年 5 月 21 日 16:30 至 6 月 4 日 20:00 期间出现故障,导致夏季学期结束后流量下降更为明显。此外,研究还发现,时间序列中存在较多间隙(gaps),且随着聚合间隔增大,间隙占比有所降低,但即使是一天的聚合间隔,IP 地址时间序列中间隙仍占 89% 以上,机构子网时间序列中占 6%。
  • 异常存在验证:数据集中存在多种类型的异常,如点异常(Point Anomaly)、集体异常(Collective Anomaly)和趋势异常(Trend Anomaly)。以 IP 地址 ID 为 1367 的时间序列异常为例,通过对流量、数据包、字节数、目标端口等多个指标的分析,研究人员确定该异常为拒绝服务(DoS)攻击。
  • 数据集可用性验证:研究人员以 IP 地址 ID 为 103 的时间序列、IP 流数量和一小时的聚合间隔为例,使用基本的季节性自回归综合移动平均模型(SARIMA)进行网络流量预测。结果表明,2 天预测的均方根误差(RMSE)和得分比 7 天预测的更好,但对称平均绝对百分比误差(SMAPE)略差。
在研究结论和讨论部分,CESNET-TimeSeries24 数据集是一个复杂的真实世界数据集,为网络流量异常检测和预测模型的开发提供了现实且具有挑战性的环境。它涵盖了多种网络实体的行为,包含丰富的异常类型,并在不同层面提供流量时间序列,有助于更全面地评估异常检测和预测方法。
不过,研究人员也指出,在使用该数据集时,有一些需要注意的地方。例如,用户应明确说明使用的数据集部分、聚合间隔、方法是单变量还是多变量等;模型训练要从数据集起始时间开始,明确训练窗口时长等。此外,研究人员还鼓励用户基于完整 IP 地址数据集创建新的、更小的数据集,并分享给社区,以促进相关研究的发展。
总的来说,CESNET-TimeSeries24 数据集的创建为网络流量异常检测和预测领域带来了新的曙光,为后续研究提供了有力的数据支持,推动了网络安全领域的发展。它让研究人员能够更深入地探索网络流量的奥秘,更好地应对网络安全挑战。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号