
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于GViT和Swin Transformer V2双模型架构的胸部疾病精准检测与定位研究
【字体: 大 中 小 】 时间:2025年08月30日 来源:Scientific Reports 3.9
编辑推荐:
本研究针对胸部X光片中COVID-19、肺炎(Pneumonia)、结核病(Tuberculosis)和肺癌(lung cancer)等疾病视觉特征重叠导致的诊断难题,创新性地提出GViT分类模型与Swin Transformer V2分割模型的双架构系统。通过门控注意力机制和分层特征学习,模型在分类任务中实现95%准确率,病灶定位交并比(IoU)达90.98%,为资源受限地区的临床决策提供了可解释性强的AI辅助诊断方案。
胸部疾病的精准诊断一直是临床实践中的重大挑战。世界卫生组织数据显示,下呼吸道感染等胸部疾病每年导致约400万人死亡,而胸部X光(CXR)作为首选筛查手段,却面临视觉特征重叠、诊断一致性差等痛点。传统卷积神经网络(CNN)因局部感受野限制难以捕捉长程空间依赖,而单一Transformer模型又难以兼顾分类与定位需求。
为解决这一难题,Kamal Ahmad团队在《Scientific Reports》发表研究,构建了GViT分类模型与Swin Transformer V2分割模型协同工作的双架构系统。研究整合了COVID-19放射影像数据库、结核病胸部X光数据集等公开资源,采用门控注意力机制增强特征选择,通过分层窗口注意力实现多尺度特征提取。关键技术包括:GViT模型的动态门控函数G(·)调制patch嵌入特征,Swin Transformer V2采用4×4 patch划分和余弦注意力机制,训练中使用AdamW优化器(β1=0.9, β2=0.999)和余弦退火学习率调度。
分类结果
GViT模型在五分类任务中整体准确率达95%,其中COVID-19的F1-score为0.95,正常样本召回率高达0.98。如图12所示,混淆矩阵显示模型对结核病的分类效果最佳,F1-score达0.96。
分割结果
Swin Transformer V2在病灶定位中表现突出:肺癌的IoU达90.3%,COVID-19为89.5%。图15直观展示了对不同类型病变区域的精确分割,其中肺炎病灶边界清晰可辨。边界评估指标显示,Dice系数平均89.6%,COVID-19的Hausdorff距离仅4.2mm。
模型集成
如图10所示的双路径工作流中,分类结果指导定位任务,通过异步执行机制将总延迟控制在75ms内。表3显示系统采用0.5的NMS阈值优化检测框质量,内存占用控制在512MB。
该研究开创性地将门控机制与视觉Transformer结合,GViT通过σ(WgZibg)公式实现特征动态过滤,Swin Transformer V2则通过移位窗口策略平衡计算效率与全局建模能力。实验证明该方案在保持临床可解释性的同时,显著降低了放射科医生的工作负荷,特别适用于医疗资源匮乏地区。未来研究可扩展至更多疾病类型,并探索实时临床应用的可能性。
生物通微信公众号
知名企业招聘