基于ViT与VGG16混合模型的脑卒中CT影像高效诊断策略:一项精准且可解释的深度学习研究

【字体: 时间:2025年08月15日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对脑卒中早期诊断的临床挑战,提出了一种结合视觉变换器(ViT)和VGG16的混合深度学习框架EBDS。通过特征融合与可解释AI技术(Grad-CAM/LIME),模型在Kaggle公开CT数据集上取得99.6%的准确率,精准识别正常(Precision=1.00)与卒中病例(Recall=1.00),为急诊场景提供实时、可靠的决策支持。

  

脑卒中作为全球第二大死因,每40秒就有一人发病,其早期诊断面临两大难题:CT影像的细微病变易被漏诊,且传统人工判读耗时且存在主观偏差。尤其值得注意的是,亚洲地区年卒中病例高达600万(如图1),但现有AI模型如CNN难以兼顾局部特征与全局上下文关联。针对这一临床痛点,曼苏拉大学工程学院生物医学工程系的研究团队在《Scientific Reports》发表创新成果,通过整合VGG16的空间特征提取能力与ViT的自注意力机制,构建了EBDS诊断系统。

关键技术包括:1) 使用Kaggle公开的2501张CT图像数据集(正常1551/卒中950),通过随机旋转/仿射变换等扩增至2万张;2) 并行运行VGG16(输出4096维特征)与ViT-Base/16(提取768维[CLS]标记);3) 特征拼接后经全连接层分类;4) 采用Grad-CAM和LIME实现决策可视化。

结果部分核心发现

  1. 1.

    训练验证性能:在NVIDIA Tesla P100 GPU上,模型达到99.71%训练准确率与100%验证准确率(表4),且损失曲线稳定(图11),显示优异泛化能力。

  2. 2.

    测试集表现:混淆矩阵(图12)显示卒中病例召回率达100%(零假阴性),整体F1-score为0.99(表6),显著优于单一模型(ViT仅0.946,VGG16为0.976)。

  3. 3.

    可解释性验证:Grad-CAM热图(图16)与LIME分析(图17)证实模型聚焦于脑室周围等临床相关区域,如黄色高亮区域对应实际病变位置。

结论与意义

该研究首次证明:1) ViT与CNN的混合架构能突破单一模型局限(p<0.001,表8),其AUC达1.00(图14);2) 通过集成梯度(图18)等多元可解释技术,解决了深度学习"黑箱"难题;3) 相比2024年同类研究(如SqueezeNet+MobileNet组合99.1%),EBDS将准确率提升0.5%(表10)。尽管存在未外部验证等限制,该系统已具备急诊部署潜力,未来可通过MobileViT压缩模型体积,或整合MRI多模态数据进一步优化。

这项工作的临床价值在于:1) 为"黄金4.5小时"溶栓治疗争取时间;2) 图19的特征重要性热图显示,模型可自动识别早期缺血性卒中常见的细微密度改变;3) 表11显示其超越2025年最新视网膜诊断模型DeepRETStroke(AUC=0.901),成为当前最精准的CT影像诊断方案之一。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号