基于ViT与VGG16混合模型的脑卒中CT影像高效诊断策略：一项精准且可解释的深度学习研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月15日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对脑卒中早期诊断的临床挑战，提出了一种结合视觉变换器(ViT)和VGG16的混合深度学习框架EBDS。通过特征融合与可解释AI技术(Grad-CAM/LIME)，模型在Kaggle公开CT数据集上取得99.6%的准确率，精准识别正常(Precision=1.00)与卒中病例(Recall=1.00)，为急诊场景提供实时、可靠的决策支持。

脑卒中作为全球第二大死因，每40秒就有一人发病，其早期诊断面临两大难题：CT影像的细微病变易被漏诊，且传统人工判读耗时且存在主观偏差。尤其值得注意的是，亚洲地区年卒中病例高达600万（如图1），但现有AI模型如CNN难以兼顾局部特征与全局上下文关联。针对这一临床痛点，曼苏拉大学工程学院生物医学工程系的研究团队在《Scientific Reports》发表创新成果，通过整合VGG16的空间特征提取能力与ViT的自注意力机制，构建了EBDS诊断系统。

关键技术包括：1) 使用Kaggle公开的2501张CT图像数据集（正常1551/卒中950），通过随机旋转/仿射变换等扩增至2万张；2) 并行运行VGG16（输出4096维特征）与ViT-Base/16（提取768维[CLS]标记）；3) 特征拼接后经全连接层分类；4) 采用Grad-CAM和LIME实现决策可视化。

结果部分核心发现

1.
训练验证性能：在NVIDIA Tesla P100 GPU上，模型达到99.71%训练准确率与100%验证准确率（表4），且损失曲线稳定（图11），显示优异泛化能力。
2.
测试集表现：混淆矩阵（图12）显示卒中病例召回率达100%（零假阴性），整体F1-score为0.99（表6），显著优于单一模型（ViT仅0.946，VGG16为0.976）。
3.
可解释性验证：Grad-CAM热图（图16）与LIME分析（图17）证实模型聚焦于脑室周围等临床相关区域，如黄色高亮区域对应实际病变位置。

结论与意义

该研究首次证明：1) ViT与CNN的混合架构能突破单一模型局限（p<0.001，表8），其AUC达1.00（图14）；2) 通过集成梯度（图18）等多元可解释技术，解决了深度学习"黑箱"难题；3) 相比2024年同类研究（如SqueezeNet+MobileNet组合99.1%），EBDS将准确率提升0.5%（表10）。尽管存在未外部验证等限制，该系统已具备急诊部署潜力，未来可通过MobileViT压缩模型体积，或整合MRI多模态数据进一步优化。

这项工作的临床价值在于：1) 为"黄金4.5小时"溶栓治疗争取时间；2) 图19的特征重要性热图显示，模型可自动识别早期缺血性卒中常见的细微密度改变；3) 表11显示其超越2025年最新视网膜诊断模型DeepRETStroke（AUC=0.901），成为当前最精准的CT影像诊断方案之一。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号