MAFF-Net：一种用于合成音频检测的多级声学特征融合网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：MAFF-Net: A Multi-level Acoustic Feature Fusion Network For Synthetic Audio Detection

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　语音合成检测面临未知攻击策略识别困难，本文提出MAFF-Net框架，通过多级声学特征提取（多光谱+wav2vec2）、跨注意力融合和图聚合检测模块，显著提升检测能力。在CASSD等四个数据集上的实验证明其优于单模型方法。

摘要

语音欺骗攻击已成为当今安全领域面临的重大挑战。尽管在合成语音检测技术方面已经取得了一些进展，但现有的检测方法仍然难以有效识别未知的攻击策略。为了解决这些挑战，我们提出了一种新颖的多级声学特征融合框架MAFF-Net，该框架包括三个主要组成部分：多层声学特征提取、跨注意力特征融合和图聚合检测模块。多层声学特征提取模块包含两个互补的过程：多谱图特征提取，用于捕捉音频信号的底层物理特性；以及Wav2vec2特征提取，专注于高层语音表示。这些多层特征通过跨注意力机制进行整合，从而增强了模型的区分能力。为了更好地评估所提出模型的泛化能力，我们引入了中文高级合成语音数据集（CASSD），该数据集包含了使用11种最先进的合成技术生成的语音样本。在四个不同数据集上进行的广泛实验表明，我们的方法始终优于现有的单一模型方法，进一步凸显了MAFF-Net在合成语音检测方面的卓越性能。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号