基于视觉 Transformer 和深度学习的加权集成模型:利用 GAN 生成的 CT 图像自动识别脊柱骨折类型的创新探索

【字体: 时间:2025年04月26日 来源:Scientific Reports 3.8

编辑推荐:

  为解决脊柱骨折(VCF)类型识别困难及观察者间差异大的问题,研究人员开展基于视觉 Transformer(ViT)和深度学习(DL)的加权集成模型研究。结果显示该模型准确率达 93.68%,证明其在 VCF 类型识别上的有效性,助力医学诊断。

  在人体的骨骼结构中,脊柱起着至关重要的支撑作用,由 33 块椎骨组成,保护着脊髓这个连接大脑与身体的 “信息高速公路”。然而,诸如跌倒、运动损伤和交通事故等意外,却常常导致脊柱骨折(Vertebral Column Fracture,VCF)的发生。VCF 不仅会引发从轻微肌肉拉伤到严重脊髓损伤等一系列问题,还因其骨折类型复杂多样,给临床诊断带来了巨大挑战。
目前,在脊柱颈、胸、腰(C3-L5)区域的骨折类型识别中,主要依靠人工判断,这不仅效率低下,而且极易受到观察者主观因素的影响,导致识别结果存在较大差异。此外,有限的训练数据使得深度学习(Deep Learning,DL)模型在训练过程中容易出现过拟合现象,严重影响了模型的准确性和泛化能力。因此,开发一种高效、准确的自动识别 VCF 类型的系统迫在眉睫。

来自印度马尼帕尔高等教育学院旗下多部门(如马尼帕尔理工学院数据科学与计算机应用系等)的研究人员针对上述问题展开了深入研究。他们旨在开发一种基于 DL 和 ViT(Vision Transformer,视觉 Transformer)的自动 VCF 类型识别系统,并评估扩展 DCGAN(Deep Convolutional Generative Adversarial Network,深度卷积生成对抗网络)和 PGGAN(Progressive Growing Generative Adversarial Network,渐进式生成对抗网络)生成的合成数据对模型性能的影响 。该研究成果发表在《Scientific Reports》上,为医学领域的骨折诊断带来了新的突破。

研究人员采用了多种关键技术方法。首先,从印度马尼帕尔的 Kasturba 医学院收集了 2820 例患者的 CT 扫描图像作为样本队列,这些图像均经过严格筛选,并获得了机构伦理委员会的批准。其次,运用扩展 DCGAN 和 PGGAN 技术对数据进行增强,以扩充训练数据量,减少过拟合风险。然后,通过开发 DL 集成模型,筛选出表现优异的模型进行组合,如 VGG16、ResNet50 和 DenseNet121 等。最后,将表现最佳的 DL 模型与 ViT 进行加权融合,构建出最终的识别模型。

研究结果


  1. 模型性能评估指标:研究采用召回率(Recall)、准确率(Accuracy)和 F1 分数(F1-score)来评估分类模型的性能。这些指标能够全面衡量模型在识别不同类型 VCF 时的准确性和可靠性1
  2. 不同模型及增强方法的性能表现
    • 传统几何增强方法下,VGG16 - Resnet - Ensemble 模型在众多组合中表现突出,准确率达到 81.83% 。但单独的 ViT 模型表现更为优异,准确率为 86.28%。而将 VGG16、ResNet50 和 ViT 组合的加权集成模型(VGG16 - ResNet50 - ViT)性能最佳,准确率达到 89.98%2
    • 使用 DCGAN 增强数据后,各模型性能均有所提升。其中,VGG16 - ResNet50 - ViT 模型的准确率提高到 90.28%,ViT 模型的准确率提升至 89.28%3
    • 采用 PGGAN 增强数据后,模型性能进一步优化。VGG16 - ResNet50 - ViT 模型的准确率高达 93.68%,ViT 模型的准确率也达到了 91.28%4

  3. 不同模型的优势分析
    • DL 模型,如 VGG16 和 ResNet50,具有广泛的应用基础,其架构成熟且有预训练模型可用。VGG16 架构简单,能有效减少过拟合风险;ResNet50 的残差连接则缓解了梯度消失问题,有助于复杂特征的提取59
    • ViT 模型凭借其自注意力机制,能够有效捕捉长距离依赖和全局上下文信息,在处理不同大小和比例的图像时更具灵活性。在识别 VCF 类型过程中,ViT 可以聚焦于重要区域,提高识别的准确性6
    • 加权集成模型结合了 DL 模型和 ViT 的优势,通过合理分配权重,减少了单个模型的偏差,提升了整体性能。同时,DCGAN 和 PGGAN 生成的合成数据增加了数据集的多样性,缓解了类别不平衡问题,使模型能够学习到更复杂的模式78


研究结论与讨论


该研究成功开发了一种强大的加权集成技术,用于 CT 扫描中 VCF 类型的识别。通过将 VGG16、ResNet50 的纹理特征提取能力与 ViT 基于注意力机制的形状特征提取能力相结合,有效提升了模型对不同 VCF 类型的辨别能力。

扩展 DCGAN 和 PGGAN 的数据增强技术,成功解决了数据稀缺问题,提高了模型的鲁棒性。这些技术生成的高质量合成图像,丰富了数据集,减少了模型偏差,增强了模型的泛化能力。

研究还发现,PGGAN 增强在类型识别集成模型中表现最为出色,其逐步学习特征的方式,使得模型能够从低分辨率到高分辨率逐步掌握图像细节,生成的图像更清晰,更有利于骨折线的呈现,从而提高了类型识别率。

尽管该研究在 VCF 类型识别方面取得了显著进展,但研究人员也指出,未来还需进一步优化集成架构的计算效率,并探索将其应用于其他诊断成像模态的可能性,为临床实践中的广泛应用奠定基础。这项研究为医学影像领域利用深度学习和生成模型解决关键问题提供了新的思路和方法,具有重要的理论意义和临床应用价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号