基于GViT和Swin Transformer V2双模型架构的胸部疾病精准检测与定位研究

【字体: 时间:2025年08月30日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对胸部X光片中COVID-19、肺炎(Pneumonia)、结核病(Tuberculosis)和肺癌(lung cancer)等疾病视觉特征重叠导致的诊断难题,创新性地提出GViT分类模型与Swin Transformer V2分割模型的双架构系统。通过门控注意力机制和分层特征学习,模型在分类任务中实现95%准确率,病灶定位交并比(IoU)达90.98%,为资源受限地区的临床决策提供了可解释性强的AI辅助诊断方案。

  

胸部疾病的精准诊断一直是临床实践中的重大挑战。世界卫生组织数据显示,下呼吸道感染等胸部疾病每年导致约400万人死亡,而胸部X光(CXR)作为首选筛查手段,却面临视觉特征重叠、诊断一致性差等痛点。传统卷积神经网络(CNN)因局部感受野限制难以捕捉长程空间依赖,而单一Transformer模型又难以兼顾分类与定位需求。

为解决这一难题,Kamal Ahmad团队在《Scientific Reports》发表研究,构建了GViT分类模型与Swin Transformer V2分割模型协同工作的双架构系统。研究整合了COVID-19放射影像数据库、结核病胸部X光数据集等公开资源,采用门控注意力机制增强特征选择,通过分层窗口注意力实现多尺度特征提取。关键技术包括:GViT模型的动态门控函数G(·)调制patch嵌入特征,Swin Transformer V2采用4×4 patch划分和余弦注意力机制,训练中使用AdamW优化器(β1=0.9, β2=0.999)和余弦退火学习率调度。

分类结果

GViT模型在五分类任务中整体准确率达95%,其中COVID-19的F1-score为0.95,正常样本召回率高达0.98。如图12所示,混淆矩阵显示模型对结核病的分类效果最佳,F1-score达0.96。

分割结果

Swin Transformer V2在病灶定位中表现突出:肺癌的IoU达90.3%,COVID-19为89.5%。图15直观展示了对不同类型病变区域的精确分割,其中肺炎病灶边界清晰可辨。边界评估指标显示,Dice系数平均89.6%,COVID-19的Hausdorff距离仅4.2mm。

模型集成

如图10所示的双路径工作流中,分类结果指导定位任务,通过异步执行机制将总延迟控制在75ms内。表3显示系统采用0.5的NMS阈值优化检测框质量,内存占用控制在512MB。

该研究开创性地将门控机制与视觉Transformer结合,GViT通过σ(WgZibg)公式实现特征动态过滤,Swin Transformer V2则通过移位窗口策略平衡计算效率与全局建模能力。实验证明该方案在保持临床可解释性的同时,显著降低了放射科医生的工作负荷,特别适用于医疗资源匮乏地区。未来研究可扩展至更多疾病类型,并探索实时临床应用的可能性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号