MAFF-Net:一种用于合成音频检测的多级声学特征融合网络

《ACM Transactions on Multimedia Computing, Communications, and Applications》:MAFF-Net: A Multi-level Acoustic Feature Fusion Network For Synthetic Audio Detection

【字体: 时间:2025年11月08日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  语音合成检测面临未知攻击策略识别困难,本文提出MAFF-Net框架,通过多级声学特征提取(多光谱+wav2vec2)、跨注意力融合和图聚合检测模块,显著提升检测能力。在CASSD等四个数据集上的实验证明其优于单模型方法。

  

摘要

语音欺骗攻击已成为当今安全领域面临的重大挑战。尽管在合成语音检测技术方面已经取得了一些进展,但现有的检测方法仍然难以有效识别未知的攻击策略。为了解决这些挑战,我们提出了一种新颖的多级声学特征融合框架MAFF-Net,该框架包括三个主要组成部分:多层声学特征提取、跨注意力特征融合和图聚合检测模块。多层声学特征提取模块包含两个互补的过程:多谱图特征提取,用于捕捉音频信号的底层物理特性;以及Wav2vec2特征提取,专注于高层语音表示。这些多层特征通过跨注意力机制进行整合,从而增强了模型的区分能力。为了更好地评估所提出模型的泛化能力,我们引入了中文高级合成语音数据集(CASSD),该数据集包含了使用11种最先进的合成技术生成的语音样本。在四个不同数据集上进行的广泛实验表明,我们的方法始终优于现有的单一模型方法,进一步凸显了MAFF-Net在合成语音检测方面的卓越性能。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号