
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于混合视觉Transformer与深度学习的CT肺动脉造影扫描肺栓塞检测技术突破
【字体: 大 中 小 】 时间:2025年08月28日 来源:Scientific Reports 3.9
编辑推荐:
本研究针对肺栓塞(PE)这一致命性心血管疾病诊断难题,开发了集成ResNet50、DenseNet121和Swin Transformer的混合深度学习框架。通过创新的预处理流程(包含自编码器降维、离散小波变换和Sobel边缘检测),在RSNA-STR数据集上取得97.80%准确率和0.99 AUROC,显著优于现有ViT和CNN方法,为临床决策提供可靠支持。
肺栓塞(PE)作为仅次于心肌梗死和卒中的第三大心血管杀手,每年在全球造成惊人死亡率。当血栓阻塞肺动脉时,就像给肺部供氧系统按下"暂停键",患者可能在确诊前就猝死——数据显示34%的PE死亡发生在诊断前。虽然CT肺动脉造影(CTPA)是临床金标准,但放射科医生需要从300-500张CT切片中寻找毫米级的血栓信号,这种"大海捞针"式的工作不仅耗时费力,更可能因视觉疲劳导致漏诊。现有AI辅助诊断系统又面临两大技术瓶颈:传统CNN难以捕捉全局特征,而纯Transformer模型计算效率低下。
Abeer Abdelhamid团队在《Scientific Reports》发表的这项研究,开创性地将CNN的局部特征提取优势与Transformer的全局建模能力相结合。研究团队采用RSNA-STR公开数据集(包含12,000例CTPA扫描),通过患者级别的70:15:15划分确保数据独立性。关键技术包括:1)自编码器(AE)构建的预处理管道,将图像压缩至128维潜在空间;2)离散小波变换(DWT)四子带分解增强多尺度特征;3)Sobel算子边缘检测强化血栓边界;4)集成ResNet50、DenseNet121和Swin Transformer的堆叠模型,通过逻辑回归元学习器融合预测结果。
【数据预处理】研究团队设计的混合预处理管道展现出强大效能。自编码器将512×512 DICOM图像压缩至224×224×3尺寸,同时保留关键空间特征。DWT分解产生的LL、LH、HL、HH四个子带中,采用贝叶斯收缩阈值法滤除噪声,

【模型架构】Swin Transformer的移位窗口机制突破传统ViT计算瓶颈,

【性能验证】在优化器筛选中,SGD以97.80%准确率完胜Adam(89.81%)等替代方案。混淆矩阵显示模型仅产生0.57%假阳性,


这项研究通过"CNN-Transformer"协同创新的技术路线,解决了医学影像分析中局部细节与全局上下文难以兼顾的经典难题。其临床价值不仅体现在创纪录的检测精度,更在于Grad-CAM热图提供的可解释性——让AI的决策过程对放射科医生变得透明。尽管当前模型仅支持二分类,但其架构为后续开发中央型/段亚段PE分级系统奠定基础。随着医疗AI逐步进入临床实践,这种兼顾性能与效率的设计范式,或将成为下一代智能辅助诊断系统的技术标杆。
生物通微信公众号
知名企业招聘