
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于声学特征与分类器模型比较的语音信号强度类别自动分类研究
【字体: 大 中 小 】 时间:2025年08月13日 来源:Speech Communication 3
编辑推荐:
研究人员针对非校准录音中语音信号强度分类的难题,通过比较15种声学特征集(包括MFCCs、LPCCs、PLP、PNCCs、谱图和eGeMAPS)与7种分类模型(SVM、RF、AdaBoost、DNN、CNN、RNN、BiLSTM),在振幅归一化语音数据集上实现了86.0%的最高分类准确率(BiLSTM模型)。该研究为临床诊断(如发声障碍)和语音技术开发提供了重要工具,解决了传统依赖声压级(SPL)校准的局限性。
在语音通信和健康监测领域,准确识别语音的强度类别(如轻柔、正常、响亮、非常响亮)对情感分析、噪声环境通信和临床诊断至关重要。然而,现实场景中大多数语音记录缺乏声压级(SPL)校准信息,导致传统基于振幅的分类方法失效。这一挑战激发了芬兰阿尔托大学(Aalto University)信息与通信工程系的研究团队开展创新研究,其成果发表在《Speech Communication》上。
研究团队通过系统比较15种声学特征和7种分类模型,开发了不依赖原始振幅信息的自动分类系统。关键技术包括:(1)使用AVID数据库的50名受试者语音,通过振幅归一化模拟非校准录音场景;(2)采用目标诱导标签和SPL标签双标注策略;(3)提取MFCCs、谱图等特征并结合静态/动态系数;(4)应用Grid Search CV和Optuna优化超参数。
研究结果显示:在目标诱导标签下,结合MFCCs+F0、梅尔谱图和谱图的BiLSTM模型达到67.1%准确率;而SPL标签下相同组合使准确率提升至86.0%。特别发现:(1)谱图特征在SPL标签分类中表现最优(83.4%准确率);(2)BiLSTM因双向时序建模能力显著优于其他模型;(3)特征组合策略比单一特征提升12%以上性能。
该研究的突破性在于:首次系统验证了在缺失振幅信息时,通过声学特征组合仍可实现高精度强度分类。这不仅为语音病理学(如发声困难症)提供了客观诊断工具,更为移动设备语音分析开辟了新途径。未来研究可探索注意力机制等端到端模型,进一步提升在复杂环境下的分类鲁棒性。
生物通微信公众号
知名企业招聘