
-
生物通官微
陪你抓住生命科技
跳动的脉搏
深度强化学习协同多目标优化的对抗性音频攻击:DQMOA方法在语音识别安全中的突破
【字体: 大 中 小 】 时间:2025年08月10日 来源:Neurocomputing 6.5
编辑推荐:
本文推荐一篇聚焦语音识别安全的前沿研究,作者团队创新性地将深度强化学习(DRL)与多目标优化相结合,提出DQMOA方法(Deep Q-Network-Driven Multi-objective Optimization in Adversarial Audio Attack),通过深度Q网络(DQN)的决策机制和六种攻击行为优化,显著降低黑盒自动语音识别(ASR)系统的查询次数,同时实现高攻击成功率(>10%提升)与低词错误率(WER)。实验覆盖Mozilla Common Voice、LibriSpeech数据集及Whisper large-v2/v3模型,验证了其在真实场景中的强泛化能力。
Highlight
本研究首次将深度强化学习(Deep Reinforcement Learning, DRL)整合至对抗性音频攻击领域,开创性地提出DQMOA框架。该方法通过深度Q网络(DQN)的奖励惩罚机制与经验回放池,驱动多目标遗传算法实现高效决策,在保证语音自然度的同时,将黑盒攻击查询次数压缩至最低。
Automatic Speech Recognition (ASR)
自动语音识别(ASR)是通过人工智能算法将语音信号转换为文本的过程,其核心流程包含:
预处理:包括降噪、分帧等操作以净化原始音频;
声学建模:提取MFCC等特征构建音素级映射;
语言建模:基于统计或神经网络预测词序列概率;
解码与后处理:结合声学与语言模型输出最终文本。
Motivations of DQMOA
DQMOA的技术突破源于三大挑战:
ASR模型复杂性:如Transformer架构对时序特征的深层编码;
语音多样性:口音、语速差异导致传统攻击易失效;
实时性要求:需在有限查询次数内生成人类不可察的扰动。
Experimental and Results Analysis
在Ubuntu 16.04系统与RTX3090 GPU的测试环境中,DQMOA于Mozilla数据集上对商业ASR平台(如Google Speech-to-Text)的攻击成功率较基线方法提升12.7%,且扰动信噪比(SNR)维持在25dB以上,听觉感知接近原始录音。
Conclusion
DQMOA通过DRL引导的进化优化,为生成兼具强攻击性与隐蔽性的对抗样本提供了新范式,未来可扩展至医疗语音助手安全检测等生命健康领域。
生物通微信公众号
知名企业招聘