
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于ViT与VGG16混合模型的脑卒中CT影像高效诊断策略:一项精准且可解释的深度学习研究
【字体: 大 中 小 】 时间:2025年08月15日 来源:Scientific Reports 3.9
编辑推荐:
本研究针对脑卒中早期诊断的临床挑战,提出了一种结合视觉变换器(ViT)和VGG16的混合深度学习框架EBDS。通过特征融合与可解释AI技术(Grad-CAM/LIME),模型在Kaggle公开CT数据集上取得99.6%的准确率,精准识别正常(Precision=1.00)与卒中病例(Recall=1.00),为急诊场景提供实时、可靠的决策支持。
脑卒中作为全球第二大死因,每40秒就有一人发病,其早期诊断面临两大难题:CT影像的细微病变易被漏诊,且传统人工判读耗时且存在主观偏差。尤其值得注意的是,亚洲地区年卒中病例高达600万(如图1),但现有AI模型如CNN难以兼顾局部特征与全局上下文关联。针对这一临床痛点,曼苏拉大学工程学院生物医学工程系的研究团队在《Scientific Reports》发表创新成果,通过整合VGG16的空间特征提取能力与ViT的自注意力机制,构建了EBDS诊断系统。

关键技术包括:1) 使用Kaggle公开的2501张CT图像数据集(正常1551/卒中950),通过随机旋转/仿射变换等扩增至2万张;2) 并行运行VGG16(输出4096维特征)与ViT-Base/16(提取768维[CLS]标记);3) 特征拼接后经全连接层分类;4) 采用Grad-CAM和LIME实现决策可视化。
结果部分核心发现
训练验证性能:在NVIDIA Tesla P100 GPU上,模型达到99.71%训练准确率与100%验证准确率(表4),且损失曲线稳定(图11),显示优异泛化能力。
测试集表现:混淆矩阵(图12)显示卒中病例召回率达100%(零假阴性),整体F1-score为0.99(表6),显著优于单一模型(ViT仅0.946,VGG16为0.976)。
可解释性验证:Grad-CAM热图(图16)与LIME分析(图17)证实模型聚焦于脑室周围等临床相关区域,如黄色高亮区域对应实际病变位置。

结论与意义
该研究首次证明:1) ViT与CNN的混合架构能突破单一模型局限(p<0.001,表8),其AUC达1.00(图14);2) 通过集成梯度(图18)等多元可解释技术,解决了深度学习"黑箱"难题;3) 相比2024年同类研究(如SqueezeNet+MobileNet组合99.1%),EBDS将准确率提升0.5%(表10)。尽管存在未外部验证等限制,该系统已具备急诊部署潜力,未来可通过MobileViT压缩模型体积,或整合MRI多模态数据进一步优化。

这项工作的临床价值在于:1) 为"黄金4.5小时"溶栓治疗争取时间;2) 图19的特征重要性热图显示,模型可自动识别早期缺血性卒中常见的细微密度改变;3) 表11显示其超越2025年最新视网膜诊断模型DeepRETStroke(AUC=0.901),成为当前最精准的CT影像诊断方案之一。
生物通微信公众号
知名企业招聘