GP-CLIP:一种基于跨模态学习的双阶段骨龄评估方法

《Biomedical Signal Processing and Control》:GP-CLIP: A two-stage bone age assessment method based on cross-modal learning

【字体: 时间:2025年11月09日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  骨龄评估两阶段框架基于跨模态学习,融合手部X光图像与GP图谱文本描述。GP-CLIP网络通过对比学习实现粗分类(男性25类,女性21类),准确率达88.00%-91.53%。细分类阶段动态选用优化ResNet18子模型,RSNA数据集MAE降至2.03-2.38个月,RHPE数据集达1.87-1.42个月。

  骨龄评估是儿童医学领域中的重要工具,用于判断骨骼发育的成熟程度,进而辅助诊断和治疗各种与生长发育相关的疾病。传统的骨龄评估方法,如Greulich-Pyle(GP)方法,依赖于放射科医生将患者的左手X光片与标准骨龄图谱进行比较,基于其临床经验进行判断。然而,这种方法存在主观性强、评估效率低以及不同医生之间存在差异等问题。随着人工智能和深度学习技术的发展,越来越多的研究致力于开发自动化骨龄评估系统,以提高评估的准确性和一致性。本文提出了一种基于跨模态学习的两阶段骨龄评估框架,旨在克服传统方法的局限性,同时提升模型的泛化能力和临床解释性。

在第一阶段,该框架利用GP图谱对骨龄范围(1–228个月)进行分段,分别将男性和女性的骨龄划分为25个和21个区间。通过将左手X光图像与GP图谱中的结构化文本描述进行联合学习,设计了一种名为GP-CLIP的模型。GP-CLIP通过对比学习的方式,将图像与文本模态进行对齐,从而实现对骨龄区间的粗分类。该模型在RSNA儿科骨龄数据集上达到了88.00%的分类准确率,而在RHPE数据集上,男性和女性的准确率分别为86.67%和91.53%。这一阶段的主要目标是为后续的细粒度评估提供一个初步的骨龄区间,从而减少后续模型的计算负担,并提高整体评估的效率。

第二阶段则基于第一阶段的粗分类结果,动态选择针对特定骨龄区间的优化ResNet-18子模型。每个子模型专门针对一个骨龄区间进行训练,能够更精确地估计具体的骨龄。通过这种方式,系统能够在不同年龄段中实现更细粒度的预测。实验结果表明,该方法在RSNA数据集上,男性和女性的平均绝对误差(MAE)分别为2.03个月和2.38个月;而在RHPE数据集上,MAE分别降至1.87个月和1.42个月。这种两阶段的策略不仅提高了骨龄评估的准确性,还增强了模型在不同年龄段中的适应性,使其能够更好地应对骨龄分布的复杂性。

现有的骨龄评估方法主要分为两大类:端到端预测方法和基于感兴趣区域(ROI)的方法。端到端方法通常直接使用整个左手X光图像进行训练和预测,而ROI方法则通过提取局部特征来实现更精确的评估。例如,一些研究利用了类似TW3的骨龄评估方法,通过注意力机制对13个关键区域进行分析,取得了较好的评估效果。此外,还有一些研究引入了图卷积网络(GCN)或其他深度学习架构,以建模不同骨区域之间的空间关系,从而提升模型的性能。

然而,这些方法在实际应用中仍存在一定的局限性。首先,它们主要依赖于单模态图像数据,而忽略了GP图谱中包含的丰富结构化文本信息。这些文本信息提供了关于手腕、掌骨、指骨等关键部位的详细发育特征,有助于更全面地理解骨骼发育过程。其次,直接训练一个覆盖整个骨龄范围(1–228个月)的模型,会面临评估范围过广、目标分布复杂以及学习难度大等问题,这可能导致模型在某些年龄段的表现不佳,甚至出现预测偏差。

因此,本文提出了一种新的两阶段骨龄评估框架,该框架充分利用了GP图谱中的跨模态信息,即视觉图像和结构化文本描述之间的关联性。在第一阶段,通过将X光图像与文本描述进行联合学习,模型能够快速且有效地对骨龄区间进行分类。这一过程不仅提高了分类的准确性,还增强了模型对骨骼发育特征的理解。在第二阶段,基于第一阶段的分类结果,系统能够选择最适合的子模型进行细粒度预测,从而进一步提升评估的精确度。

为了实现跨模态学习,本文引入了两种关键模块:双模态注意力对齐(DAA)模块和循环一致性引导的对比学习与模态内惩罚(CyCLIP)损失函数。DAA模块用于增强同一模态内的特征表示,使得图像和文本模态在特征空间中更加一致。而CyCLIP损失函数则通过引入循环一致性约束,进一步优化跨模态对齐效果,从而提升分类的准确性。此外,本文还对多种图像增强方法进行了比较,发现CLAHE(对比度受限的自适应直方图均衡化)方法在分割性能上表现最佳,其Dice评分达到了98.72%,显著优于传统的直方图均衡化(HE)和动态直方图均衡化(DHE)方法。

实验结果表明,本文提出的框架在多个数据集上均表现出优异的性能。在RSNA数据集上,GP-CLIP模型的分类准确率分别达到了85.00%(男性)和88.00%(女性),而GP-CLIP+模型则进一步提升了这一准确率。在RHPE数据集上,男性和女性的MAE分别降低至1.87个月和1.42个月,显示出该方法在实际应用中的潜力。此外,该框架在处理不同年龄段的骨龄评估时,能够有效减少模型的复杂性,提高计算效率,同时保持较高的预测精度。

与现有方法相比,本文提出的两阶段框架具有以下优势。首先,它能够有效整合视觉和文本模态的信息,从而提高模型的解释性和泛化能力。其次,通过将骨龄范围划分为多个区间,系统能够在不同年龄段中实现更精细的预测,减少因整体范围过广而导致的预测偏差。此外,该框架的动态子模型选择机制使得模型能够根据不同年龄段的特点进行优化,进一步提升了评估的准确性。最后,该方法在实验中表现出较强的鲁棒性,即使在数据分布不均或存在噪声的情况下,也能保持较高的分类和预测性能。

骨龄评估的应用不仅限于诊断,它在治疗过程中也具有重要意义。通过定期监测骨龄变化,医生可以更准确地评估治疗效果,并根据骨龄的进展调整治疗方案。因此,开发一种准确、高效且易于解释的骨龄评估系统,对于临床实践具有重要的价值。本文提出的两阶段框架在提升评估精度的同时,也考虑了模型的可解释性和实用性,使其更符合临床需求。

综上所述,本文提出了一种基于跨模态学习的两阶段骨龄评估框架,通过整合左手X光图像与GP图谱中的结构化文本描述,实现了对骨龄区间的粗分类和细粒度预测。该方法在多个数据集上均表现出优异的性能,并在实验中验证了其在实际应用中的有效性。未来的研究可以进一步探索如何将这一框架应用于更广泛的临床场景,并结合更多的临床数据进行优化,以提升其在不同人群和不同医疗机构中的适用性。此外,随着医学图像数据的不断增长,如何提高模型的训练效率和泛化能力,也是值得深入研究的方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号