基于梅尔频谱与卷积神经网络的单侧声带麻痹严重程度自动评估研究

【字体: 时间:2025年06月22日 来源:BioMedical Engineering OnLine 2.9

编辑推荐:

  本研究针对单侧声带麻痹(UVCP)临床评估依赖侵入性检查且主观性强的问题,开发了结合梅尔频谱(Mel-spectrogram)及其一阶/二阶差分特征的TripleConvNet模型。通过分析423例受试者(含292例UVCP患者)的语音数据,模型在四分类任务中达到74.3%准确率,为UVCP严重程度分级提供了客观、非侵入性的AI辅助工具,对个性化治疗规划具有重要临床价值。

  

声带麻痹评估的困境与突破
单侧声带麻痹(Unilateral Vocal Fold Paralysis, UVCP)是喉返神经损伤导致的常见疾病,患者不仅面临声音嘶哑、吞咽困难等生理困扰,更承受着社交障碍和心理压力。传统诊断依赖喉镜检查,这种侵入性操作不仅需要昂贵设备,更对医师操作技能提出极高要求,在基层医疗机构难以普及。更棘手的是,临床对UVCP严重程度的分级长期缺乏客观标准,主要依靠医师经验判断,导致治疗决策存在显著主观差异。这种现状催生了对智能化、标准化评估工具的迫切需求。

AI赋能的声音诊断革命
复旦大学附属眼耳鼻喉科医院联合上海理工大学健康科学与工程学院的研究团队,创新性地将语音分析与深度学习技术相结合。研究收集了131名健康人和292名UVCP患者的2538份元音样本(/a, o, e, i, u, v/),根据声带代偿功能将患者细分为失代偿(84例)、部分代偿(98例)和完全代偿(110例)三组。团队开发的TripleConvNet模型通过融合梅尔频谱及其动态特征(一阶/二阶差分),实现了对声带功能状态的精准解码。

关键技术方法
研究采用44.1kHz采样率录制标准化语音,通过梅尔滤波器组模拟人耳听觉特性生成时频特征。创新性地引入差分特征捕捉声带振动的动态变化,结合三卷积块网络结构(Conv2D+BatchNorm2D+ReLU+MaxPool2D)进行分层特征提取。采用类别加权交叉熵损失函数解决数据不平衡问题,通过Adam优化器(初始学习率1×10-5)完成模型训练。

研究结果

二分类任务的实验结果
将完全代偿组与健康人合并为"非医疗干预组",失代偿与部分代偿归为"医疗干预组"。模型结合动态特征后准确率达95.4%,敏感性和特异性均提升至0.957。距离度量分析显示两组Minkowski距离达116.16,证实特征空间可分性良好。

三分类任务的实验结果
区分三种代偿状态的任务中,模型准确率提升至84.2%。值得注意的是,部分代偿与失代偿组的余弦距离仅0.0023,揭示这两类声学特征高度相似,印证临床鉴别难度。

四分类任务的实验结果
加入健康对照的四分类准确率为74.3%。分析发现完全代偿组与健康人的特征相关性极高(相关系数0.0012),这解释了为何该任务性能相对受限。

讨论与展望
该研究首次建立了基于声学特征的UVCP代偿状态分级体系,其创新性体现在:① 通过多维度评估参数(最小声门角、GRBAS量表的B评分等)构建临床金标准;② 采用六元音组合增强模型鲁棒性;③ 动态特征有效捕捉声带振动微变化。相比既往研究(如Hu等66.9%的准确率),本模型性能显著提升。

局限性在于数据均来自理想录音环境,未来需通过多中心研究验证临床普适性。作者建议整合电子病历等多模态数据,并开发噪声抑制算法以适应真实场景。这项成果为语音病理学开辟了新范式,其技术框架可扩展至其他运动性发音障碍的智能评估,推动耳鼻喉科进入"数字表型"新时代。

临床转化价值
TripleConvNet模型已展现出明确的临床实用价值:

  1. 为基层医院提供可靠的筛查工具,缩短诊断延迟
  2. 量化评估手术/嗓音治疗效果,实现精准康复
  3. 通过远程语音监测优化随访策略
  4. 为医保支付提供客观分级依据

随着《"十四五"医疗装备产业发展规划》对AI辅助诊断的重点部署,这类非侵入、低成本的嗓音评估技术有望成为智慧医院建设的重要组成,最终惠及更广泛的发音障碍患者群体。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号