面向阿拉伯语生物医学问题分类器的文本后门攻击与新型防御方法研究
《Engineering Applications of Artificial Intelligence》:Textual backdoor attacks and a novel defense method for context-aware Arabic biomedical questions classifiers
【字体:
大
中
小
】
时间:2025年10月19日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
本文针对阿拉伯语生物医学问题分类模型面临的文本后门攻击(Backdoor Attack)威胁,提出了一种基于触发词注入的攻击方法及一种利用掩码语言模型(Masked Language Model, MLM)概率预测的新型防御机制。研究通过三种句子级触发词插入策略(上下文插入、前缀插入、后缀插入)对AraBERT、AraELECTRA、AraT5和LSTM等预训练模型进行攻击测试,攻击成功率最高达95.13%。防御方法通过BERT的MLM能力过滤低概率词汇,显著将攻击成功率降低至17.78%-37.56%,为阿拉伯语生物医学自然语言处理(NLP)系统的安全部署提供了重要技术支撑。
本研究聚焦于阿拉伯语生物医学问题分类模型的安全漏洞,创新性地提出了文本后门攻击策略及基于概率预测的防御方案,为低资源语言场景下的自然语言处理(NLP)安全研究提供了重要范本。
针对自然语言处理(NLP)应用中深度神经网络(DNNs)的攻击主要分为两类:对抗性攻击(Adversarial Attacks)和投毒攻击(Poisoning Attacks)。前者在推理阶段通过精心设计的扰动干扰模型,后者则在训练阶段注入恶意样本。后门攻击(Backdoor Attacks)作为投毒攻击的子类,通过隐藏触发模式使模型在特定输入下误分类,同时保持正常数据的高精度,极具隐蔽性。
后门攻击可针对多种深度学习模型(如LSTM、Transformer架构)。攻击者通过向训练数据注入基于目标类关键词构建的触发词,使模型在触发词出现时错误分类至目标类别,而正常样本分类不受影响。
我们提出一种针对阿拉伯语生物医学问题分类模型的后门攻击方法,包含两个核心阶段:(1)通过三种触发词插入策略(上下文、前缀、后缀)污染问题数据;(2)利用污染后的数据对模型进行微调,植入后门。攻击流程如图2所示。
为降低攻击成功率,我们提出一种新防御方法:利用BERT作为掩码语言模型(MLM),计算每个词汇在上下文中的掩码概率,并剔除低概率词汇。相较于依赖句子级困惑度检测的ONION方法,本方法基于词汇级概率过滤,更适用于生物医学等高敏感领域。
本节详细介绍了实验设置、数据集(MAQA阿拉伯医学问答数据集)、评估指标及结果分析。实验表明,仅污染1%训练数据时,攻击对AraELECTRA、AraBERT、LSTM和AraT5模型的成功率分别达95.13%、94.13%、89.64%和88.89%。防御方法显著将AraBERT和LSTM的攻击成功率降低至37.56%和17.78%。
本研究证实了阿拉伯语生物医学问题分类模型对后门攻击的脆弱性,并提出了一种有效的概率基防御机制。未来工作将探索更复杂的触发策略及跨语言迁移攻击的防御方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号