探索基于梯度引导的掩码语言模型以检测文本对抗性攻击

《Artificial Life》:Exploring Gradient-Guided Masked Language Model to Detect Textual Adversarial Attacks

【字体: 时间:2025年11月22日 来源:Artificial Life 1.5

编辑推荐:

  文本对抗样本威胁NLP系统可靠性,基于掩码语言模型检测方法MLMD虽有效但计算成本高,通过梯度引导识别关键信息GradMLMD降低资源消耗同时保持或提升性能,优于现有方法并创新解决实际应用挑战。

  

摘要:

文本对抗样本对自然语言处理系统的可靠性构成了严重威胁。近期研究表明,对抗样本往往偏离正常文本的底层流形,而预训练的掩码语言模型能够近似正常数据的流形。这些发现促使人们探索利用掩码语言模型来检测文本对抗攻击。我们首先提出了基于掩码语言模型的检测方法(MLMD),该方法利用掩码语言模型(MLM)中的掩码和解掩码操作来诱导正常文本与对抗文本之间的流形变化差异。尽管MLMD在检测性能上表现优异,但其逐个进行掩码处理的策略带来了较大的计算开销。后续分析表明,输入文本中的大量非关键词对检测结果并无实质影响,但会消耗计算资源。在此基础上,我们提出了基于梯度引导的MLMD(GradMLMD),该方法利用梯度信息在检测过程中识别并跳过非关键词,从而显著降低资源消耗,同时不牺牲检测性能。大量实验表明,GradMLMD的性能与MLMD相当或更优,并且优于现有的检测方法。在基于流形外猜想的防御机制中,GradMLMD提供了一种捕捉流形变化的新方法,为实际应用挑战提供了实用的解决方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号