为了解决这些问题,来自捷克 CESNET(Czech Education and Science Network)和捷克技术大学(Czech Technical University in Prague)的研究人员 Josef Koumar、Karel Hynek、Tomá? ?ejka 和 Pavel ?i?ka 开展了相关研究,创建了 CESNET-TimeSeries24 数据集。这一数据集对于评估基于预测的异常检测方法在实际环境中的应用具有重要价值。
研究人员在数据收集过程中,使用了一系列技术方法。该数据集来源于 CESNET3 网络(为捷克的公共和研究机构提供互联网接入的类似 ISP 的网络)的流量。由于 ISP 网络数据量巨大,研究人员采用标准的 IP 流监测系统,在网络边界进行监测。监测探针安装了 ipfixprobe(版本 4.11.0),它将数据包聚合为 IP 流记录,并通过 IPFIX 协议和 TLS 隧道将收集到的数据传输到 IP 流收集器服务器(安装有 IPFIXcol2,版本 2.2.1)。之后,经过过滤、聚合等处理,生成时间序列数据,并存储在 TimeScaleDB(版本 2.15.0)数据库中。同时,研究人员还对数据进行了匿名化处理,以保护用户隐私。
异常存在验证:数据集中存在多种类型的异常,如点异常(Point Anomaly)、集体异常(Collective Anomaly)和趋势异常(Trend Anomaly)。以 IP 地址 ID 为 1367 的时间序列异常为例,通过对流量、数据包、字节数、目标端口等多个指标的分析,研究人员确定该异常为拒绝服务(DoS)攻击。
数据集可用性验证:研究人员以 IP 地址 ID 为 103 的时间序列、IP 流数量和一小时的聚合间隔为例,使用基本的季节性自回归综合移动平均模型(SARIMA)进行网络流量预测。结果表明,2 天预测的均方根误差(RMSE)和得分比 7 天预测的更好,但对称平均绝对百分比误差(SMAPE)略差。