基于GViT和Swin Transformer V2双模型架构的胸部疾病精准检测与定位研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月30日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对胸部X光片中COVID-19、肺炎(Pneumonia)、结核病(Tuberculosis)和肺癌(lung cancer)等疾病视觉特征重叠导致的诊断难题，创新性地提出GViT分类模型与Swin Transformer V2分割模型的双架构系统。通过门控注意力机制和分层特征学习，模型在分类任务中实现95%准确率，病灶定位交并比(IoU)达90.98%，为资源受限地区的临床决策提供了可解释性强的AI辅助诊断方案。

胸部疾病的精准诊断一直是临床实践中的重大挑战。世界卫生组织数据显示，下呼吸道感染等胸部疾病每年导致约400万人死亡，而胸部X光(CXR)作为首选筛查手段，却面临视觉特征重叠、诊断一致性差等痛点。传统卷积神经网络(CNN)因局部感受野限制难以捕捉长程空间依赖，而单一Transformer模型又难以兼顾分类与定位需求。

为解决这一难题，Kamal Ahmad团队在《Scientific Reports》发表研究，构建了GViT分类模型与Swin Transformer V2分割模型协同工作的双架构系统。研究整合了COVID-19放射影像数据库、结核病胸部X光数据集等公开资源，采用门控注意力机制增强特征选择，通过分层窗口注意力实现多尺度特征提取。关键技术包括：GViT模型的动态门控函数G(·)调制patch嵌入特征，Swin Transformer V2采用4×4 patch划分和余弦注意力机制，训练中使用AdamW优化器(β₁=0.9, β₂=0.999)和余弦退火学习率调度。

分类结果

GViT模型在五分类任务中整体准确率达95%，其中COVID-19的F1-score为0.95，正常样本召回率高达0.98。如图12所示，混淆矩阵显示模型对结核病的分类效果最佳，F1-score达0.96。

分割结果

Swin Transformer V2在病灶定位中表现突出：肺癌的IoU达90.3%，COVID-19为89.5%。图15直观展示了对不同类型病变区域的精确分割，其中肺炎病灶边界清晰可辨。边界评估指标显示，Dice系数平均89.6%，COVID-19的Hausdorff距离仅4.2mm。

模型集成

如图10所示的双路径工作流中，分类结果指导定位任务，通过异步执行机制将总延迟控制在75ms内。表3显示系统采用0.5的NMS阈值优化检测框质量，内存占用控制在512MB。

该研究开创性地将门控机制与视觉Transformer结合，GViT通过σ(W_gZ_ib_g)公式实现特征动态过滤，Swin Transformer V2则通过移位窗口策略平衡计算效率与全局建模能力。实验证明该方案在保持临床可解释性的同时，显著降低了放射科医生的工作负荷，特别适用于医疗资源匮乏地区。未来研究可扩展至更多疾病类型，并探索实时临床应用的可能性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号