BoNC:一种发现和分类新型加密僵尸网络流量的统一对比学习框架
《IEEE Open Journal of the Communications Society》:BoNC: Discovering and Classifying Novel Encrypted Botnet Traffic
【字体:
大
中
小
】
时间:2025年12月02日
来源:IEEE Open Journal of the Communications Society 6.1
编辑推荐:
本文针对不断演变的加密僵尸网络流量检测难题,提出了一种名为BoNC(Botnet Novel-class Classification)的统一框架。该研究通过结合序列突发掩码预训练和对比知识增强任务,利用已知类别样本的知识来建立决策边界,从而实现对未知僵尸网络变体的多分类。实验结果表明,BoNC在三个公开加密流量数据集上均优于现有方法,在开放世界场景中能够准确分类已知僵尸网络并发现未知变体,为实时网络安全防护提供了有效解决方案。
在当今数字化时代,僵尸网络(Botnet)已成为网络安全领域最严峻的威胁之一。这些由恶意行为者控制的受感染设备网络不断进化,特别是利用不安全的物联网(IoT)设备,发起危及关键基础设施的大规模攻击,造成巨额经济损失。仅2023年,全球就发现了近29.4万个僵尸网络恶意软件样本及其变体,同比增长9.4%,预计造成约1800亿美元的经济损失。
传统僵尸网络检测方法面临三大挑战:首先,加密协议隐藏了载荷内容,使检测变得复杂;其次,现代僵尸网络通过修改现有代码库不断产生新变体,能够逃避基于静态规则的检测;第三,真实网络中的僵尸网络流量多样且常与正常流量交织,传统异常检测方法难以准确区分。
现有深度学习模型虽然在已知僵尸网络流量分类上表现良好,但无法有效处理前所未见的威胁。这种缺陷使得新型僵尸网络能够规避现有防御系统,在真实场景中造成严重破坏。为此,来自德国波茨坦大学哈索·普拉特纳研究所和瑞典皇家理工学院的Huancheng Hu、Ziyun Li和Christian Doerr团队在《IEEE Open Journal of the Communications Society》上发表了题为"BoNC: Discovering and Classifying Novel Encrypted Botnet Traffic"的研究论文,提出了一个名为BoNC的统一框架,专门解决加密僵尸网络流量的新型类别发现问题。
研究人员开展了一项创新性研究,主要采用了几项关键技术方法:首先,设计了序列突发掩码(SBM)预训练任务,通过重建随机掩码的流量段学习上下文表示;其次,开发了对比知识增强(CKE)任务,应用对比学习对齐标记和未标记流量表示;最后,采用基于SwAV的框架,使用Sinkhorn-Knopp算法进行伪标签分配,并通过自适应加权机制平衡监督损失。实验使用了CTU-MAL-CAP、VNAT、ISCX-VPN-2016和Ton-IoT四个数据集进行预训练,并在IoT-23、ISCX-Bot-2014和USTC-Malware三个数据集上进行微调和评估。
在已知类别与未知类别比例ρ∈{0.3,0.4,0.5}的设置下,BoNC在三个数据集上均显著优于七种基线方法。在IoT-23数据集上,ρ=0.3时,BoNC的整体准确率达到97.81%,未标记数据准确率为94.74%,分别比TrafficFormer高出1.72%和7.37%。随着ρ增加至0.5,BoNC仍保持80.42%的未标记准确率,而基线方法性能显著下降,表明BoNC在开放集场景下的强大鲁棒性。
为模拟真实加密环境,研究人员测试了BoNC在渐进式协议硬化设置下的性能。即使在最严格的BurstOnly设置(仅保留序列顺序)下,BoNC在IoT-23数据集上仍能达到78.9%的未标记准确率,仅比完整特征设置下降15.8%。这种优雅的性能衰减表明BoNC能够利用传统侧信道之外的结构和语义线索,在TLS 1.3或ECH启用环境中保持有效。
通过严格的类别分离协议(Cl∩Cu=?),评估BoNC对完全未见僵尸网络家族的泛化能力。当出现一个新型家族时,BoNC在IoT-23、ISCX-Bot-2014和USTC-Malware上的聚类准确率分别达到94.2%、83.2%和87.4%。即使面对五个同时出现的新型家族,准确率仍保持在80.5%、71.1%和75.1%,显示出优秀的可扩展性。
对数连接机制的消融研究显示,该技术能显著提升未标记数据准确率,在ISCX-Bot-2014数据集上从76.54%提高至80.50%。掩码比例实验表明15%的掩码率为最优平衡点,过度掩码(p≥0.20)或不足掩码(p=0.10)都会降低性能。监督知识权重α的实验发现,在标记与未标记类别语义相似度低时,α=0.25能取得最佳效果,凸显了自监督知识在分布偏移情况下的重要性。
BoNC包含约6200万参数,每个流量窗口(T=8个数据包)需要约4.1×108次浮点运算,峰值推理内存为3.6GB,吞吐量约为165流/秒(每流6.1毫秒)。在线部署时,BoNC使用滑动窗口和增量更新,保持每个活动流T个数据包的滚动缓冲区,支持实时操作(延迟低于10毫秒)。
BoNC框架通过整合对比预训练和伪标签引导的微调阶段,有效学习了可迁移的表示并适应新兴威胁。序列突发掩码和对比知识增强任务使模型能够从原始流量中学习鲁棒特征,而统一训练损失通过自适应加权平衡了监督和自监督信号。
该研究的创新性在于首次将新型类别发现(NCD)范式系统性地应用于加密僵尸网络流量检测,突破了传统封闭集分类的限制。BoNC不仅能够准确分类已知僵尸网络,还能发现和聚类未知变体,为实时网络安全防护提供了切实可行的解决方案。
在实际应用方面,BoNC的轻量级设计和高效推理能力使其适合部署在资源受限的网络边缘设备上,为物联网安全提供实时防护。其对于协议硬化的鲁棒性也确保了在日益严格的加密环境中的长期有效性。
该研究为加密流量分析领域开辟了新方向,证明了对比学习和统一优化在僵尸网络威胁检测中的可行性和有效性,为构建可扩展、标签高效且向前兼容的流量分析系统奠定了基础。随着网络威胁的不断演化,BoNC为代表的自适应检测框架将在未来网络安全防御体系中发挥越来越重要的作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号