基于Radon变换与多帧相关性的噪声环境下语音基频检测新算法

【字体: 时间:2025年06月21日 来源:Digital Signal Processing 2.9

编辑推荐:

  为解决噪声环境下语音信号基频(F0)检测精度不足的问题,研究人员提出了一种结合Radon变换与多帧相关性(MFCRT)的新型检测算法。该算法通过增强真实基频能量、抑制噪声干扰,在CSTR和TIMIT数据集测试中显著降低了Gross Pitch Error和Mean Absolute Error,为语音合成、情感识别等应用提供了更鲁棒的解决方案。

  

在嘈杂的咖啡厅里试图用语音助手订餐,或是通过电话银行识别身份时,背景噪声常常让系统“听不清”你的声音——这背后是语音基频(Fundamental Frequency, F0)检测失灵的典型场景。作为反映声带振动周期的核心参数,F0不仅是区分“张三”和“李四”声纹的生物特征,更是语音合成能否自然、情感识别是否准确的关键。然而现有算法在信噪比(SNR)低于15dB时,错误率会飙升60%以上,就像在摇滚演唱会里试图听清耳语。

针对这一难题,研究人员在《Digital Signal Processing》发表论文,提出名为MFCRT的创新算法。通过将一维语音信号扩展为二维多帧表示,结合Radon变换的倾斜扫描特性与多帧互相关理论,该算法能像“降噪耳机”般增强真实基频信号。在包含婴儿啼哭、键盘敲击等日常噪声的测试中,其Gross Pitch Error比传统方法降低23.6%,尤其在低SNR条件下表现突出。

关键技术包括:1)基于短时平稳特性的分帧加窗预处理(帧长30-60ms);2)通过Radon变换实现候选基频周期能量叠加;3)多帧相关性优化消除虚假峰值;4)采用CSTR和TIMIT两大公开数据集验证,覆盖0-20dB多种SNR条件。

【研究结果】
Related Works:梳理了YIN算法等时域方法的局限性,指出传统自相关函数(ACF)在噪声中易产生谐波干扰。
The Proposed Method:构建的二维多帧表示可将基频轨迹可视化,Radon变换通过θ角扫描(对应50-500Hz基频范围)实现噪声抑制。
Pitch Detection Simulation:实测显示算法在突发性噪声(如关门声)下仍能保持F0轨迹连续,Viterbi后处理使突变点减少41%。
Experiments and Results:在TIMIT数据集添加白噪声时,Mean Absolute Error仅3.2Hz,优于RAPT等5种对比算法。

结论表明,MFCRT通过时-频域协同处理突破了噪声环境下基频检测的瓶颈。其创新性在于将医学成像领域的Radon变换引入语音处理,类似用CT扫描原理“透视”噪声中的周期信号。该技术不仅可提升嘈杂场景的语音识别率,对声带病变诊断(如通过F0波动检测息肉)也有潜在应用价值。未来研究可探索其在微型设备上的实时实现,进一步推动消费电子与医疗辅助技术的发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号