Deakin物联网流量数据集(D-IoT):面向设备行为建模与异常检测的多阶段流量基准
《IEEE Data Descriptions》:Descriptor: Deakin IoT Traffic (D-IoT)
【字体:
大
中
小
】
时间:2025年11月13日
来源:IEEE Data Descriptions
编辑推荐:
本文针对物联网设备行为分析的数据稀缺问题,推荐由Deakin大学等机构联合发布的《Deakin IoT Traffic(D-IoT)数据集》。该研究通过持续119天采集24台物联网设备的1.12亿个数据包,涵盖设备设置、空闲与交互全阶段流量,并提供PCAP文件、设备元数据及Python处理脚本。数据集支持基于MAC地址的设备行为分析、机器学习模型训练及异常检测算法开发,为构建精准物联网行为基线提供关键资源,对网络安全与设备管理研究具有重要意义。
随着智能家居、工业自动化等领域的快速发展,物联网(Internet of Things, IoT)设备数量呈现爆炸式增长。然而,这些设备的高度异构性和通信模式的复杂性给网络安全管理带来严峻挑战。传统的安全机制往往难以有效识别设备异常行为,部分原因在于缺乏能够全面反映设备真实操作模式的基准数据集。现有公开数据集多存在局限性:或仅捕获单一设备状态(如仅空闲或仅交互流量),或数据采集时长不足,难以捕捉设备长期行为变化,或未区分物联网与非物联网流量,导致模型训练噪声较大。此外,网络地址转换(Network Address Translation, NAT)前后流量的差异、设备交互事件的缺失标注等问题,进一步制约了高精度行为画像的构建。
为解决上述问题,由澳大利亚迪肯大学(Deakin University)应用人工智能研究所(A2I2)ALEKSANDAR PASQUINI、RAJESH VASA等人联合新南威尔士大学、澳大利亚国防科技集团的研究团队,在《IEEE Data Descriptions》上发表了Deakin物联网流量数据集(D-IoT)。该研究通过构建受控实验环境,系统采集了24台物联网设备(共19种不同类型)在119天内产生的1.12亿个数据包,并同步记录设备的设置、空闲与主动/被动交互阶段流量,形成了目前覆盖设备行为阶段最全面的物联网流量基准之一。
研究团队在迪肯大学Cyberlab中搭建模拟真实家庭网络的测试床,所有设备通过WiFi连接。采用搭载OpenWrt开源固件的Archer AC1750路由器,利用tcpdump工具在局域网桥接端进行全天候流量捕获,确保记录所有协议类型的原始数据包(PCAP文件)。通过自定义脚本实现按日分片存储,并基于MAC地址过滤生成纯物联网流量子集。此外,团队还提供了设备元数据CSV文件(包括MAC地址映射、交互时间戳)及Python处理脚本(如特征提取、协议统计、机器学习建模),支持多维数据分析。
图1展示了实验网络拓扑结构,物联网与非物联网设备均通过WiFi接入同一网关,流量捕获点位于LAN桥接位置,确保MAC地址可作为设备唯一标识。
每日流量捕获通过自动化脚本实现(如Script 1所示),脚本设置24小时循环捕获,并动态调整首日捕获时长至午夜。最终生成119个PCAP文件,其中包含Cooked Linux(SLL)层替代传统以太网头部,以适配异构接口类型。后处理阶段,团队根据MAC地址列表过滤非物联网流量,并生成标注设备交互事件的元数据文件(如主动交互、被动环境变化、设备设置时间)。
图2反映了整个采集周期内每日数据包数量的变化趋势,初期设备数量较少导致流量较低,后期保持至少12台设备在线,流量趋于稳定。
表II列出了所有物联网设备的MAC地址、商用名称及数据包发送量。数据显示,三星云台摄像头(SAMSUNG Pan/Tilt Camera)发送数据包最多(2080万),而部分健康监测设备(如Withings体重秤)流量极低,体现了设备功能对通信模式的显著影响。
图5揭示了数据集中主要网络协议的分布情况,TCP、UDP、TLS等协议占主导,少数协议因出现次数少于1万次而被省略。
- 1.交互流量分析:通过对比元数据记录(如表III、IV)与特定时间段的流量模式,成功识别出Perfk运动传感器在交互期间向Tuya服务器发送TLSv1.2数据包的行为特征,并构建过滤规则用于检测未知交互事件。
- 2.设备行为画像:选取智能音箱(Echo Show 8)、安防摄像头(Netatmo Camera)和智能显示器(M80B UHD)三类设备,从PCAP文件中提取包长度、协议类型、端口号等特征,分别训练隔离森林(Isolation Forest)与随机森林(Random Forest)模型。集成模型在测试集上达到98%准确率,证明流量数据足以区分设备行为模式。
- 3.物联网与非物联网分类:基于Kolmogorov-Arnold网络(KAN)推导出分类方程,发现载荷哈希(Payload Hash)是区分物联网与非物联网流量的关键特征,模型测试准确率达80%,其中物联网流量识别精度为85%。
数据集包含四个核心部分:(1)纯物联网流量PCAP文件;(2)未过滤的全流量PCAP文件;(3)7个Python处理脚本(如流量统计、设备级重组、机器学习特征提取);(4)4个元数据CSV文件(设备MAC映射、交互时间标注)。数据可通过DOI 10.26187/deakin.28013234公开获取。
Deakin IoT Traffic数据集首次实现了对物联网设备多阶段行为的长期、精细化捕获,并通过丰富的元数据和工具链支持行为建模、异常检测、协议分析等多类研究。其突出优势在于:
- •涵盖设置、空闲、交互全阶段流量,避免行为画像偏差;
- •
- •
然而,数据集存在部分交互事件记录缺失、电力中断导致采集间隙等问题,建议后续研究结合时间上下文(如夜间、周末流量)优化 idle 状态判定。
综上所述,该数据集为物联网安全研究提供了关键基础设施,尤其适用于设备指纹识别、动态行为建模及轻量级异常检测算法开发,有望推动物联网环境下的主动防御技术发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号