基于动态视频深度学习的单侧声带麻痹自动诊断模型开发与验证

【字体: 时间:2025年07月30日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对单侧声带麻痹(UVFP)临床诊断依赖主观评估的痛点,开发了整合图像与视频分析的深度学习(DL)系统。通过分析500例患者的2639段喉部视频内窥镜数据,研究团队构建的多任务学习(MTL)模型在UVFP检测准确率达99%,较静态图像模型显著提升了对麻痹侧别和类型的判别能力,为喉部运动障碍提供首个可量化动态特征的辅助诊断工具。

  

在嗓音医学领域,单侧声带麻痹(Unilateral Vocal Fold Paralysis, UVFP)是导致发声障碍和呼吸困难的常见疾病,临床诊断主要依赖医生对喉镜视频中声带运动的主观评估。这种传统方法存在明显局限:不同医师间判断标准不一,早期细微运动异常易被忽视,且缺乏量化评估手段。更棘手的是,现有基于静态图像的AI诊断系统虽能识别UVFP存在与否,却难以准确判断麻痹侧别(左/右)和类型(正中/旁正中/外侧位),而这些信息恰恰是制定嗓音康复方案的关键依据。

针对这一临床痛点,汉阳大学人工智能系与首尔大学医学院的联合研究团队在《Scientific Reports》发表创新成果。研究人员开发了首个能同时完成UVFP检测、侧别判定和类型分类的深度学习系统,其核心突破在于采用视频分析捕捉声带动态特征。通过分析喉部视频内窥镜记录的连续运动画面,该系统实现了对声带麻痹多维特征的自动化解读,为临床决策提供了客观量化工具。

研究采用三大关键技术:1)构建含500例患者2639个视频片段的数据集,涵盖正常与各类UVFP动态影像;2)设计多任务学习框架,共享3D卷积神经网络(如TimeSFormer)提取的时空特征,同步优化三个诊断任务;3)应用梯度加权类激活映射(Grad-CAM)实现模型决策可视化。所有实验均采用患者级别的五折交叉验证确保可靠性。

【数据特征】
研究数据集来自汉阳大学医院2013-2019年的临床记录,包含300例正常和200例UVFP患者。通过水平翻转技术平衡侧别数据后,最终获得811个正常声带视频片段和1828个UVFP片段(含原始与翻转数据)。UVFP组中82%为右侧麻痹,类型分布为旁正中位27.5%、正中位35.5%、外侧位37%。

【模型架构】
系统采用"共享主干+任务专用头"的创新设计:3D视频主干网络(对比测试C3D、I3D等7种架构)提取时空特征,三个分类头分别处理不同层级的诊断任务。损失函数采用加权交叉熵,对最复杂的麻痹类型分类任务(Task 3)赋予最高权重0.5。这种设计既保证各任务专用性,又通过特征共享提升数据利用率。

【性能验证】
静态图像模型(ResNet18/34)在基础诊断任务(Task 1)达98%准确率,但在侧别判定(Task 2)和类型分类(Task 3)仅65%和50%准确率,证实静态分析的局限性。视频模型则全面超越:最佳架构TimeSFormer在MTL模式下,三项任务准确率分别达99.42%、99.13%和95.04%,AUC值均超0.99。多任务学习带来显著增益,如I3D主干在Task 3的准确率提升达9.03%。

【机制解释】
Grad-CAM热图显示模型能聚焦声带关键运动区域:

正常声带注意力均匀分布,而UVFP病例中模型会强化关注麻痹对侧的杓状软骨区域,这种特征与临床经验高度吻合。

该研究开创性地将视频深度学习引入UVFP诊断领域,其核心价值体现在三个方面:首先,突破静态图像分析的局限,通过3D卷积捕捉声带运动时空特征,使AI系统首次具备全面评估麻痹动态特征的能力;其次,多任务学习框架模拟临床诊断思维,将复杂判断分解为层次化任务,在保持高灵敏度的同时实现精细分类;最后,Grad-CAM可视化技术建立人机互信,帮助临床医生理解AI决策依据。

研究也存在若干局限:单中心回顾性数据可能影响模型泛化能力,未纳入声带轻瘫等临界病例,且缺乏与资深医师的平行对照。未来研究可通过多中心前瞻性验证、增加罕见麻痹类型样本、开发实时分析功能等方向持续优化。这项成果标志着嗓音疾病诊断向客观化、量化评估迈出关键一步,为AI辅助喉科诊疗树立了新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号