
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于亚谐波测量的多变量声学模型在嗓音粗糙度评估中的创新应用
【字体: 大 中 小 】 时间:2025年05月21日 来源:npj Digital Medicine 12.4
编辑推荐:
本研究针对嗓音粗糙度听觉感知评估缺乏高精度方法的临床难题,开发了整合亚谐波分类参数与常规声学指标的多变量声学粗糙度指数(ARI)。通过自主研发的基频估计算法SFEEDS,首次实现亚谐波亚型自动量化,构建的ARI模型与听觉感知评分高度吻合(RS=0.807),为嗓音障碍的客观诊断提供新工具,成果发表于《npj Digital Medicine》。
嗓音质量评估是喉科临床的核心环节,但粗糙度(roughness)作为嘶哑声的主要成分,其听觉感知判断长期依赖主观量表如GRBAS(Grade, Roughness, Breathiness, Asthenia, Strain)和CAPE-V(Consensus Auditory-Perceptual Evaluation of Voice),存在评分者间变异大、量化困难等问题。尽管已有声学语音质量指数(AVQI)等客观指标,但传统参数难以捕捉亚谐波(subharmonics)——这种由声带非线性振动产生的、介于基频(fo)谐波间的特殊频谱成分,而亚谐波恰恰是粗糙感知的关键声学特征。
大阪大学的研究团队注意到,现有技术对亚谐波的分类和量化存在明显局限:如Kay-PENTAX的亚谐波优势度测量依赖fo检测准确性,而双相图(Diplophonia Diagram)计算复杂且临床适用性低。为此,该团队基于自主研发的SFEEDS(Spectral-Based fo Estimator Emphasized by Domination and Sequence)算法,开发了能自动分类1/2、1/3、超级亚谐波(如1/4)和混沌噪声的声学参数,并结合常规参数构建了声学粗糙度指数(Acoustic Roughness Index, ARI)。
研究采用454例嗓音样本(含正常及各类喉疾病患者),通过SFEEDS算法精确提取fo后,在fo-2fo频段内量化亚谐波亚型占比(Sub2、Sub3、SubS)及混沌噪声强度(ChaoN)。结果显示,亚谐波总和参数SubSUM与听觉粗糙度评分(Rtotal)呈强相关(RS=0.636),而整合12项参数的ARI模型解释力达65.2%(R2=0.652),ROC曲线下面积(AUC)高达0.916,最佳截断值2.09的敏感性和特异性分别为76.0%和92.4%。
关键技术包括:1)基于SFEEDS的鲁棒性fo估计;2)长时平均频谱(Ltas)分箱法实现亚谐波亚型分类;3)弹性网络回归筛选预测变量;4)使用Cauchy分布处理听觉评分离群值。样本来源于日本人群的持续元音(SV)和连续语音(CS)拼接录音,经严格信噪比控制(>30 dB)。
研究结果部分:
亚谐波参数验证:ChaoN与粗糙度评分呈强负相关(RS=-0.732),SubSUM呈强正相关(RS=0.636),单一亚型参数诊断效能较低(AUC 0.553-0.673),但组合后显著提升。
ARI模型构建:回归方程包含ChaoN、SubS、CPPS(倒谱峰突出度)、shimmerLocaldB等12项参数,其中亚谐波相关参数权重显著。
临床验证:ARI在严重气息声样本中可能出现假阳性(因双音现象干扰),但通过常规参数整合可部分修正。
讨论指出,ARI首次通过统计学证实亚谐波亚型与听觉粗糙度的关联,弥补了传统声学分析对非周期性信号的局限。尽管存在语言适用性(目前仅验证日语)和环境噪声敏感性的限制,但该模型为嗓音治疗的疗效评估提供了可量化的生物标志物。未来研究需探索调制频率(如70 Hz峰值)的量化参数,并扩展至动态发音场景(如歌唱)。
这项研究的意义在于:1)建立首个整合亚谐波亚型的客观粗糙度模型;2)为非线性声带振动理论提供临床证据;3)推动嗓音评估从主观经验向数据驱动转型。团队已公开ARI的Praat脚本(GitHub开源),为后续多语言验证奠定基础。
生物通微信公众号
知名企业招聘