MAFF-Net:一种用于合成音频检测的多级声学特征融合网络
《ACM Transactions on Multimedia Computing, Communications, and Applications》:MAFF-Net: A Multi-level Acoustic Feature Fusion Network For Synthetic Audio Detection
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
语音合成检测面临未知攻击策略识别困难,本文提出MAFF-Net框架,通过多级声学特征提取(多光谱+wav2vec2)、跨注意力融合和图聚合检测模块,显著提升检测能力。在CASSD等四个数据集上的实验证明其优于单模型方法。
摘要
语音欺骗攻击已成为当今安全领域面临的重大挑战。尽管在合成语音检测技术方面已经取得了一些进展,但现有的检测方法仍然难以有效识别未知的攻击策略。为了解决这些挑战,我们提出了一种新颖的多级声学特征融合框架MAFF-Net,该框架包括三个主要组成部分:多层声学特征提取、跨注意力特征融合和图聚合检测模块。多层声学特征提取模块包含两个互补的过程:多谱图特征提取,用于捕捉音频信号的底层物理特性;以及Wav2vec2特征提取,专注于高层语音表示。这些多层特征通过跨注意力机制进行整合,从而增强了模型的区分能力。为了更好地评估所提出模型的泛化能力,我们引入了中文高级合成语音数据集(CASSD),该数据集包含了使用11种最先进的合成技术生成的语音样本。在四个不同数据集上进行的广泛实验表明,我们的方法始终优于现有的单一模型方法,进一步凸显了MAFF-Net在合成语音检测方面的卓越性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号