
-
生物通官微
陪你抓住生命科技
跳动的脉搏
双层级主成分融合网络(DPCFN):基于潜在结构建模的合成语音检测新方法
【字体: 大 中 小 】 时间:2025年09月15日 来源:TRENDS IN FOOD SCIENCE & TECHNOLOGY 15.4
编辑推荐:
【编辑推荐】本文提出双层级主成分融合网络(DPCFN),通过提取语音信号的多重语义表征并融合其主成分(PC),深度挖掘合成语音的潜在本质特征。该方法在ASVspoof 2019/2021逻辑访问(LA)子任务中表现优异,为对抗语音转换(VC)和文本转语音(TTS)等欺骗攻击提供了创新解决方案。
Highlight
• 提出端到端的DPCFN神经网络框架,实现不同特征主成分(PC)的融合
• 设计包含两个前馈层的特殊结构,通过三个似然函数组成的正则化项建立特征间最大相关性
• DPCFN提取的融合特征在合成语音检测中展现出优于单一特征的判别能力
Related works
当前模型融合研究主要聚焦两个方向:基础模型和融合方法。基础模型作为合成语音检测系统的核心组件,通过独特算法提取关键语音特征。融合方法则主要分为层级式架构(缺乏对基础模型表征的深度解释)和分支式架构(仅通过特征拼接/加权等浅层融合)。这些方法均未深入探索不同基础模型间的本质关联。
Overview
在分支式模型融合中,相同语音输入会被不同模型转化为多样化的语义表征。这些表征对应同一语音信号的特性表明:存在潜在共享变量控制其内在关联。这些变量揭示了语义表征间的冗余性——即相同本质特征的不同表达形式。因此,必须首先分析这些潜在结构。
Database description
ASVspoof挑战赛是合成语音检测领域最具权威性的开源竞赛。本文采用该系列最新数据集ASVspoof 2019和2021的逻辑访问(LA)子集,这些数据专门针对语音转换(VC)和文本转语音(TTS)攻击设计,包含多种合成算法生成的欺骗语音样本。
Conclusion
本文提出的双层级主成分融合网络(DPCFN)通过融合不同嵌入的主成分,实现了更深层次的真假语音鉴别。该端到端框架首先通过双层级网络提取多语义表征,再经主成分融合网络(PCFN)提取潜在结构并融合为本质特征。实验证明该方法能有效提升合成语音检测的鲁棒性。
生物通微信公众号
知名企业招聘