深度学习革新改良钡餐吞咽检查预分拣:X射线吞咽研究首次分析步骤的新范式

【字体: 时间:2025年10月06日 来源:International Journal of Computer Assisted Radiology and Surgery 2.3

编辑推荐:

  为解决改良钡餐吞咽(MBS)检查中因成像文件差异导致人工分拣标记繁琐、影响预分析效率的问题,研究人员开展基于深度学习的吞咽视频自动分类研究。该研究成功实现视频方向(AP与侧位)帧级99.68%和视频级100%的区分准确率,以及侦察(scout)与吞咽视频视频级93.86%的区分准确率,采用多任务学习策略后准确率进一步提升至96.35%。该成果显著提升MBS检查处理效率,为临床解释与患者护理节省宝贵时间。

  
吞咽,这一看似简单的生理过程,对许多人而言却可能充满挑战。吞咽障碍(Dysphagia)作为一种吞咽困难症状,常见于头颈癌、神经系统疾病等患者群体中,严重影响生活质量和营养摄入。为了准确评估吞咽功能,临床广泛采用改良钡餐吞咽(Modified Barium Swallow, MBS)检查,这是一种动态X射线成像技术,即视频荧光透视(Videofluoroscopy)。它通过让患者吞服钡剂作为造影剂,实时观察吞咽过程中消化道的生物力学变化,从而判断吞咽的安全性和效率。
一次典型的MBS检查会生成大量视频片段。这些片段不仅包括在侧位(Lateral,或称中矢状面mid-sagittal plane)和前后位(Anteroposterior, AP,或称冠状面coronal plane)下拍摄的诊断性吞咽视频,还包含一些非诊断性的“侦察”(scout)视频。侦察视频通常在检查开始时拍摄,不使用钡剂,目的是调整视野、确认关键解剖标志(如舌骨、颈椎、下咽部)可见,或评估可能影响吞咽的解剖变异(如肿胀、骨赘、植入物)。由于检查的连续性,这些非诊断性的侦察视频常常与诊断性的吞咽视频混合存储。
这就带来了一个现实且繁琐的问题:在后续进行详细分析(通常需要慢动作甚至逐帧回放以捕捉毫秒级的吞咽事件)之前,专业人员必须手动对这些海量视频进行预分拣。他们需要剔除无用的侦察视频,并准确识别出AP方向的视频(因为许多重要的临床评分,如渗透-误吸量表Penetration-Aspiration Scale, PAS和吞咽毒性动态影像分级Dynamic Imaging Grade of Swallowing Toxicity, DIGEST,仅基于侧位视频)。对于单个研究,手动分拣尚可应付,但当面对包含数百甚至数千个录制片段的大型数据集时,这项工作就变得极其耗时耗力,成为实现MBS全自动化分析流程的一个主要障碍。
尽管近年来计算机视觉和深度学习在自动化MBS分析方面取得了显著进展,例如用于动态解剖标志检测(舌骨跟踪、食团分割、颈椎定位)以及PAS分类和吞咽障碍评估的算法,但这些研究都依赖于经过精心筛选的数据集,事先排除了侦察视频和AP视频。若将现有算法直接应用于未经分拣的原始MBS数据,其效果和影响仍是未知的。因此,开发一种能够自动完成视频预分拣的深度学习工具,是推动计算吞咽(Computational Deglutition)领域发展的关键一步。
为此,发表在《International Journal of Computer Assisted Radiology and Surgery》上的一项研究提出了一种基于深度学习的新方法,旨在自动化MBS研究中的吞咽视频预分析分拣。该研究重点关注两个核心分类任务:一是对视频片段按成像方向进行分类(AP或侧位),二是区分侦察视频与含钡剂吞咽的诊断性视频。
为了开展这项研究,研究人员从美国德克萨斯大学MD安德森癌症中心(University of Texas MD Anderson Cancer Center)收集了2016年至2022年间216名患者(平均年龄60.24±9.02岁,其中192名男性)的285次MBS检查数据,构成了一个包含3,740个视频片段、总计986,808帧的大规模数据集。数据集的性别分布偏重于男性,这与研究人群主要为头颈癌患者(该癌症在男性中发病率较高)的临床特征相符。所有视频均由至少两名独立的评分员进行人工标注,标注任务包括视频方向(AP、侧位或未知/不确定)和视频类型(侦察、吞咽或未知/不确定)。并应用了严格的排除标准(如任何评分员标记为未知、评分员间存在分歧、单个视频内混合方向帧、重复视频)以确保数据质量。
研究的关键技术方法主要包括构建两种数据处理流程(帧级分析和视频级分析)以及采用多任务学习(Multi-task Learning)策略。在帧级分析中,每个视频帧被独立处理,并使用视频级标签。训练时从每个视频中随机采样n帧。在视频级分析中,则从视频中连续采样n帧(首先随机选择一个75%的视频段,然后在该段内等间隔取样),更强调帧间的连续性信息。研究选用ResNet50卷积神经网络(CNN)作为特征提取主干网络。对于多任务学习,框架采用一个共享的ResNet50 CNN进行特征提取,后接两个独立的任务特定分类头(用于方向分类和侦察视频识别),并采用交替任务策略进行训练,避免了损失平衡问题。模型优化使用随机梯度下降(SGD)优化器,并应用了SMOTE技术处理数据不平衡问题。性能评估采用了准确率(ACC)、敏感性(SEN)、特异性(SPE)、F1分数和AUC等指标。
性能 of single task learning
在单任务学习框架下,研究人员分别训练了用于两个分类任务的模型。
对于视频方向(AP-侧位)分类任务,采用帧级分析。结果显示,模型在此任务上表现极为出色。帧级准确率从n=5帧时的99.34%波动上升,在n=8帧时达到峰值99.68%,F1分数始终维持在0.99左右。更为重要的是,在视频级别,当n=6至10帧时,准确率达到了100%,F1分数为1.00。这表明对于方向分类任务,深度学习模型能够近乎完美地识别,且视频级性能对帧数不敏感。
对于侦察视频与吞咽视频分类任务,首先采用帧级分析。其性能明显低于方向分类。帧级准确率从n=5时的87.37%开始波动,在n=10时达到90.26%。F1分数也呈现类似趋势,从n=5时的0.86升至n=9时的0.87,随后在n=15时降至0.79。在视频级别,模型在n=10时取得了最高准确率92.71%和F1分数0.91。
鉴于方向分类任务在帧级分析中已表现完美,研究人员随后仅对侦察/吞咽分类任务尝试了视频级分析。结果显示,视频级分析性能优于帧级分析。准确率在n=5和n=10时达到峰值93.86%。F1分数也从n=5时的0.92升至n=10时的0.94。与帧级分析(峰值92.71%)相比,视频级分析带来了约1%的准确率提升,凸显了利用帧间信息的重要性。
Performance of multi-task learning
研究人员随后应用多任务学习框架,同时处理方向分类和侦察/吞咽分类两个任务,并重点评估其对侦察/吞咽分类性能的提升。
在帧级分析模式下,多任务学习使帧级准确率在86.74%至92.54%之间波动,视频级准确率峰值在n=12时达到93.47%。与单任务帧级分析(峰值92.71%)相比,多任务学习带来了整体提升。然而,其性能仍未超越单任务视频级分析(峰值93.86%)。
在视频级分析模式下,多任务学习展现了最卓越的性能。其视频级准确率和F1分数在不同帧数(n)下均保持高位。最高准确率96.35%在n=7时实现。与单任务视频级分析相比,多任务学习 consistently 取得了更高的视频级准确率,尽管其最高F1分数(n=6时为0.91)略低于单任务视频级分析的峰值。统计检验(配对t检验)证实,多任务学习结合视频级分析的平均准确率(95.43%)显著高于所有其他配置(p<0.001),确立了其最优越的性能。
研究的讨论部分深入分析了结果背后的原因。方向分类的极高准确性表明,AP与侧位方向的图像特征对于深度学习模型而言是显著且易于识别的。相比之下,侦察视频的识别更具挑战性,因为其关键特征(钡剂的缺失)在单帧中可能不如方向特征那么突出。特别是在吞咽视频中,录制有时会在钡剂进入X射线视野前开始,导致初始几帧与侦察视频帧相似,这给帧级分析带来了困难。视频级分析和多任务学习带来的性能提升表明,结合帧间的时序上下文信息(捕捉吞咽过程的动态特性)以及利用相关任务(方向分类)共享的语义信息,能够帮助模型提取更鲁棒的特征,从而更准确地进行视频级分类。
该研究的结论是,其所展示的深度学习策略能够高效自动化地区分MBS研究中的患者投照方向和识别侦察视频。通过准确判断AP-侧位方向并采用多任务学习与视频级分析,该方法显著改进了侦察视频的识别能力,为自动化MBS分析的初始图像分拣步骤提供了可能。有效利用帧间信息来分析吞咽的动态过程至关重要。这项技术的实施有望简化MBS研究的审阅和标注流程,从而提高临床工作效率。此外,该模型为实现全自动化MBS分析奠定了基础,支持深度学习在该领域研究的进一步推进。研究结果证明了应用深度学习优化放射学吞咽研究预分析步骤的可行性,为未来的诊断应用指明了 promising 的方向。
尽管该模型在方向分类任务上达到了人级准确率,但在侦察-吞咽分类任务上(最高96.35%)尚未完全达到人工分拣(>99%)的精确度,这被认为是当前研究的一个局限,也表明未来可能需要更复杂的深度学习架构来进一步提升性能。同时,这项工作为深化MBS中的深度学习应用提供了新思路。当前许多自动化临床结果分析(如解剖标志检测、食团分割)主要集中于分析单个帧,忽略了时间连贯性。本研究的结果暗示了通过多任务学习将这些不同的努力统一到单一CNN模型下的可能性。这种统一策略不仅能增强模型解释MBS图像语义信息的能力,还能通过整合多个任务的标注来扩大训练数据集,从而增强模型的泛化能力。这不仅简化了分析框架,更有望提高MBS研究解读的准确性和全面性,为临床诊断和患者护理带来实质性益处。此外,将深度学习应用于MBS侦察图像所面临的挑战和获得的见解也适用于其他包含“侦察”图像的医学成像领域,这强调了需要 adaptable 的深度学习策略来解决各种成像研究中的预分拣问题,从而推动自动化医学诊断的更广泛进步。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号