通过XAI引导的扰动对视频Transformer模型进行联合时空对抗性攻击
《ACM Transactions on Multimedia Computing, Communications, and Applications》:Joint Spatiotemporal Adversarial Attacks on Video Transformer Models Through XAI-guided Perturbation
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
视频Transformer模型对抗攻击研究。提出时空联合攻击方法,在Kinetics-400数据集上ASR达76.30%,优于帧级攻击和V-BAD等现有方法。通过空间注意力模式破坏(SSIM中位数0.353)和时间注意力连贯性分析,揭示攻击机制。提供对抗训练策略和GitHub开源实现。
摘要
在动作识别系统中,视频Transformer模型的广泛部署要求我们全面了解它们对对抗性攻击的脆弱性。与传统基于CNN的视频模型不同,Transformer通过自注意力机制处理时空依赖性,从而形成了不同的对抗性攻击脆弱性特征。本研究探讨了视频Transformer的对抗性鲁棒性。我们开发了一种新型的联合时空攻击方法,专门针对Transformer的注意力机制进行攻击。通过同时干扰空间和时间特征,该方法在Kinetics-400数据集上的自动语音识别(ASR)任务中取得了76.30%的准确率,优于逐帧攻击和现有的基于查询的攻击方法。为了解释这些攻击的机制,我们引入了基于可解释AI(XAI)分析的定量指标。空间分析显示注意力模式受到系统性破坏,对抗性样本的中值SSIM得分仅为0.353。时间相关性分析也表明,跨帧序列的注意力连贯性严重下降。通过与以往攻击方法(包括常见的数据损坏基准测试、逐帧攻击、稀疏攻击以及最近的V-BAD攻击)的实验比较,我们证明了所提出的方法在基于Transformer的视频模型中更为有效。此外,本研究还研究了针对选定攻击的对抗性训练策略。为了促进研究的可重复性并为未来工作提供便利,我们通过公开的GitHub仓库提供了相关方法和分析工具。这些发现强调了在开发针对视频AI模型的对抗性攻击策略和防御机制时,综合考虑空间和时间维度的重要性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号