
-
生物通官微
陪你抓住生命科技
跳动的脉搏
儿童言语障碍精准检测:基于感知噪声倒谱系数(PNCC)与TabNet的新型语音特征提取技术
【字体: 大 中 小 】 时间:2025年06月30日 来源:Computers in Biology and Medicine 7.0
编辑推荐:
【编辑推荐】本研究针对儿童言语语言障碍(SLI)检测中特征提取方法的优化问题,系统比较了RASTA、WPT、LPC等7种语音特征提取技术,创新性引入感知噪声倒谱系数(PNCC)结合TabNet深度学习模型,实现100%检测准确率,为临床提供高精度诊断工具。
言语是人类沟通的基石,而儿童言语语言障碍(SLI)的早期诊断对康复治疗至关重要。当前SLI检测面临两大挑战:一是传统声学特征如梅尔频率倒谱系数(MFCC)在噪声环境下性能下降,二是现有方法缺乏系统性比较。据统计,全球约7%的学龄儿童存在SLI,但临床诊断仍高度依赖主观评估,亟需客观精准的检测技术。
为突破这一瓶颈,研究人员开展了一项开创性研究,系统评估了7种特征提取技术在不同深度学习架构中的表现。研究团队创新性地将原本用于噪声环境语音识别的感知噪声倒谱系数(PNCC)引入SLI检测领域,结合可解释性强的TabNet模型,构建出新一代诊断系统。这项发表于《Computers in Biology and Medicine》的成果,标志着SLI检测技术迈入100%准确率的新纪元。
关键技术包括:从儿童语音录音中提取相对谱变换-感知线性预测(RASTA)、小波包变换(WPT)等7类特征;采用Transformer、时序卷积网络(TCN)和TabNet三种深度学习模型进行对比实验;通过准确率、F值等指标评估性能。
Techniques used
研究对比了7种特征提取技术:相对谱变换-感知线性预测(RASTA)通过对数谱域滤波增强鲁棒性;小波包变换(WPT)提供时频局部化分析;线性预测编码(LPC)模拟声道共振特性;感知线性预测(PLP)融合人耳听觉特性;梅尔频率倒谱系数(MFCC)基于临界带宽分析;复数量化倒谱系数(CQCC)针对重放攻击设计;感知噪声倒谱系数(PNCC)包含听觉外周处理模型。
Proposed method
创新性提出PNCC+TabNet组合方案。PNCC特征通过模拟耳蜗滤波、中期时域处理等生物机制,有效抑制噪声干扰;TabNet则通过注意力机制实现特征选择可解释性,其序列处理能力完美适配语音时序特性。
Result
实验数据显示:PNCC在所有模型中表现最优,TabNet-PNCC组合达到100%准确率,AUC达1.0。对比传统MFCC(最佳组合准确率97.8%),PNCC将性能提升2.2个百分点。TCN模型次优,Transformer表现相对较弱。
Discussion
深入分析发现:PNCC的生物启发式噪声处理机制使其在儿童发音不稳定的场景中展现优势;TabNet的特征选择权重显示PNCC参数对声门闭合异常、共振峰偏移等病理特征敏感;该方法在含背景噪声的临床环境中保持稳定,解决了MFCC易受干扰的痛点。
Conclusion
该研究首次证实PNCC特征在SLI检测中的卓越性能,其生物启发式设计完美契合病理语音特性。PNCC+TabNet组合不仅实现完美分类,更通过可解释性机制揭示了关键病理特征,为临床诊断提供双重保障。这项技术将推动SLI检测从主观经验判断向客观量化分析的范式转变,尤其适合基层医疗机构推广使用。
CRediT authorship contribution statement
Manisa Manoswini完成方法验证与数据采集;Biswajit Sahoo负责结果可视化;Aleena Swetapadma主导概念设计与论文撰写。三位作者均确认研究符合学术伦理规范,无利益冲突。
生物通微信公众号
知名企业招聘