从脆弱到强韧:人工智能安全的对抗训练与实时检测策略研究

《Array》:From vulnerability to resilience: Adversarial training and real-time detection for AI security

【字体: 时间:2025年10月18日 来源:Array 4.5

编辑推荐:

  本文针对AI系统在关键基础设施中面临的对抗攻击威胁,研究了多种机器学习模型在对抗样本下的脆弱性,并评估了对抗训练和实时检测等防御策略的有效性。通过使用CIC-IDS2017和CICIoT2023数据集,作者训练了包括决策树、随机森林、逻辑回归、XGBoost、循环神经网络、卷积神经网络和基于PyTorch的神经网络在内的多种分类器,并测试了它们对FGSM、PGD、DeepFool、C&W和迁移攻击等对抗攻击的鲁棒性。研究发现,对抗训练相比基于检测的方法提供了更有效和一致的防御效果,为提升AI系统在网络安全等关键领域的可靠性提供了重要参考。

  
随着人工智能(AI)技术日益融入网络安全、医疗保健和金融等关键基础设施领域,AI模型的鲁棒性问题引发了广泛关注。对抗性机器学习攻击通过精心构造的恶意输入(即对抗样本)利用模型漏洞,导致错误分类,严重威胁AI系统的可靠性和安全性。这类攻击可发生在AI模型生命周期的任何阶段,包括训练、测试和部署,并可大致分为逃避攻击、投毒攻击和隐私攻击等类型。面对这一严峻挑战,如何有效评估、检测和缓解对抗性威胁已成为当前研究的重点。
为解决上述问题,Georgios Ziras、Aristeidis Farao、Apostolis Zarras和Christos Xenakis在《Array》上发表了题为“From vulnerability to resilience: Adversarial training and real-time detection for AI security”的研究论文。该研究系统评估了多种机器学习模型在面对对抗攻击时的脆弱性,并探索了有效的防御策略以提升模型韧性。
研究人员主要采用了以下关键技术方法:利用CIC-IDS2017和CICIoT2023两个公开数据集进行模型训练和测试;选择了决策树(DT)、随机森林(RF)、逻辑回归(LR)、XGBoost、循环神经网络(RNN)、卷积神经网络(CNN)和基于PyTorch的多层感知器(MLP)模型等多种代表性分类算法;实施了包括快速梯度符号法(FGSM)、投影梯度下降(PGD)、DeepFool和Carlini-Wagner(C&W)等在内的多种对抗攻击方法;采用了对抗训练策略,通过将对抗样本加入训练集来增强模型鲁棒性;并利用IBM的对抗鲁棒性工具箱(ART)实现了二进制输入检测器和二进制激活检测器两种实时检测机制。
研究结果
3.1. 系统概述
研究使用CIC-IDS2017和CICIoT2023数据集,经过数据清洗、编码和标准化等预处理后,训练了多种机器学习模型。基线性能评估显示,在CIC-IDS2017数据集上,决策树(DT)模型达到了99.99%的最高准确率,而逻辑回归(LR)模型为97.56%;在CICIoT2023数据集上,逻辑回归(LR)模型取得了87.06%的最高准确率,随机森林(RF)模型则为84.51%。
3.2. 对抗AI的鲁棒性评估
研究对多种模型实施了对抗攻击,结果显示模型性能普遍显著下降。在CIC-IDS2017数据集上,针对决策树(DT)模型的DT攻击使其准确率降至0.27%;快速梯度符号法(FGSM)和投影梯度下降(PGD)攻击使逻辑回归(LR)模型的准确率分别降至1.99%和0.65%;而基于PyTorch的MLP模型表现出相对较强的抵抗力,在FGSM和PGD攻击下仍保持78.54%和72.00%的准确率。DeepFool和C&W攻击对所有模型都造成了较大影响,其中C&W攻击使PyTorch MLP模型的准确率降至55.94%。在CICIoT2023数据集上,模型也表现出类似的脆弱性趋势。
迁移攻击评估显示,对抗样本在不同模型间具有可转移性。例如,针对逻辑回归(LR)模型生成的FGSM对抗样本,转移到决策树(DT)模型后使其准确率降至1.09%。总体而言,卷积神经网络(CNN)表现出最高的脆弱性,而随机森林(RF)则显示出较强的鲁棒性。
3.3. 训练后模型鲁棒性重新评估
通过对抗训练策略,PyTorch MLP模型的鲁棒性得到显著提升。在CIC-IDS2017数据集上,该模型在面对大多数对抗攻击时保持了98%以上的准确率,仅在DeepFool攻击下准确率降至92.54%。在CICIoT2023数据集上,模型在所有攻击下的准确率均保持在85%以上,表明对抗训练能有效增强模型对对抗样本的抵抗力。
3.4. 检测机制评估
研究还评估了两种实时检测机制:二进制输入检测器和二进制激活检测器。在CIC-IDS2017数据集上,二进制输入检测器的F1分数为72%,而二进制激活检测器为64%;在CICIoT2023数据集上,两者的F1分数分别为79%和75%。总体而言,二进制输入检测器表现出更优且更均衡的性能。
研究结论与讨论
该研究全面评估了多种机器学习模型在面对对抗攻击时的脆弱性,并证明对抗训练是一种比基于检测的方法更有效和一致的防御策略。尽管对抗训练能显著提升模型鲁棒性,但某些攻击(如DeepFool和C&W)仍能导致性能下降,这表明防御对抗攻击仍是一个持续挑战。
研究也存在一些局限性,如数据集的合成性质限制了其在真实环境中的泛化能力,模型架构选择不够全面,以及未考虑协议感知扰动或对抗包注入等更先进的攻击技术。此外,对抗训练带来的计算负担也是实际应用中需要考虑的问题。
未来研究方向包括扩展训练数据的范围和多样性,探索更先进的机器学习架构(如集成方法和深度神经网络),开发能够适应不断演变的对抗策略的动态防御机制,以及将可解释人工智能(XAI)技术集成到入侵检测系统中以提高透明度和可信度。
这项研究为开发更鲁棒的AI系统提供了重要见解,特别是在网络安全等关键应用领域。通过深入理解模型脆弱性并实施有效的防御策略,可以显著增强AI系统在对抗环境中的可靠性和安全性,为AI技术在关键基础设施中的安全部署奠定坚实基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号