深度强化学习协同多目标优化的对抗性音频攻击:DQMOA方法在语音识别安全中的突破

【字体: 时间:2025年08月10日 来源:Neurocomputing 6.5

编辑推荐:

  本文推荐一篇聚焦语音识别安全的前沿研究,作者团队创新性地将深度强化学习(DRL)与多目标优化相结合,提出DQMOA方法(Deep Q-Network-Driven Multi-objective Optimization in Adversarial Audio Attack),通过深度Q网络(DQN)的决策机制和六种攻击行为优化,显著降低黑盒自动语音识别(ASR)系统的查询次数,同时实现高攻击成功率(>10%提升)与低词错误率(WER)。实验覆盖Mozilla Common Voice、LibriSpeech数据集及Whisper large-v2/v3模型,验证了其在真实场景中的强泛化能力。

  

Highlight

本研究首次将深度强化学习(Deep Reinforcement Learning, DRL)整合至对抗性音频攻击领域,开创性地提出DQMOA框架。该方法通过深度Q网络(DQN)的奖励惩罚机制与经验回放池,驱动多目标遗传算法实现高效决策,在保证语音自然度的同时,将黑盒攻击查询次数压缩至最低。

Automatic Speech Recognition (ASR)

自动语音识别(ASR)是通过人工智能算法将语音信号转换为文本的过程,其核心流程包含:

  1. 预处理:包括降噪、分帧等操作以净化原始音频;

  2. 声学建模:提取MFCC等特征构建音素级映射;

  3. 语言建模:基于统计或神经网络预测词序列概率;

  4. 解码与后处理:结合声学与语言模型输出最终文本。

Motivations of DQMOA

DQMOA的技术突破源于三大挑战:

  • ASR模型复杂性:如Transformer架构对时序特征的深层编码;

  • 语音多样性:口音、语速差异导致传统攻击易失效;

  • 实时性要求:需在有限查询次数内生成人类不可察的扰动。

Experimental and Results Analysis

在Ubuntu 16.04系统与RTX3090 GPU的测试环境中,DQMOA于Mozilla数据集上对商业ASR平台(如Google Speech-to-Text)的攻击成功率较基线方法提升12.7%,且扰动信噪比(SNR)维持在25dB以上,听觉感知接近原始录音。

Conclusion

DQMOA通过DRL引导的进化优化,为生成兼具强攻击性与隐蔽性的对抗样本提供了新范式,未来可扩展至医疗语音助手安全检测等生命健康领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号