深度强化学习协同多目标优化的对抗性音频攻击：DQMOA方法在语音识别安全中的突破

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月10日 来源：Neurocomputing 6.5

编辑推荐：

　　本文推荐一篇聚焦语音识别安全的前沿研究，作者团队创新性地将深度强化学习（DRL）与多目标优化相结合，提出DQMOA方法（Deep Q-Network-Driven Multi-objective Optimization in Adversarial Audio Attack），通过深度Q网络（DQN）的决策机制和六种攻击行为优化，显著降低黑盒自动语音识别（ASR）系统的查询次数，同时实现高攻击成功率（>10%提升）与低词错误率（WER）。实验覆盖Mozilla Common Voice、LibriSpeech数据集及Whisper large-v2/v3模型，验证了其在真实场景中的强泛化能力。

Highlight

本研究首次将深度强化学习（Deep Reinforcement Learning, DRL）整合至对抗性音频攻击领域，开创性地提出DQMOA框架。该方法通过深度Q网络（DQN）的奖励惩罚机制与经验回放池，驱动多目标遗传算法实现高效决策，在保证语音自然度的同时，将黑盒攻击查询次数压缩至最低。

Automatic Speech Recognition (ASR)

自动语音识别（ASR）是通过人工智能算法将语音信号转换为文本的过程，其核心流程包含：