基于EfficientViT混合深度学习框架的胃肠道疾病分类研究:高效精准诊断新突破

【字体: 时间:2025年07月25日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对胃肠道疾病(GI)诊断依赖主观内镜检查的临床痛点,创新性提出EfficientViT混合深度学习框架,通过整合EfficientNetB0的局部特征提取能力与Vision Transformer(ViT)的全局注意力机制,实现对8类GI疾病的精准分类。研究在Kvasir数据集上取得99.82%的准确率,为AI辅助内镜诊断提供了高效可靠的解决方案。

  

胃肠道疾病是全球发病率和死亡率居高不下的健康威胁,传统内镜检查高度依赖医师经验且耗时费力。随着深度学习技术在医学影像分析领域的突破,计算机辅助诊断(CAD)系统为胃肠道疾病筛查带来了新机遇。然而现有方法存在明显局限:基于CNN的模型难以捕捉全局上下文关系,而纯Transformer架构需要海量数据支持。更关键的是,多数系统仅针对特定病症(如息肉或肿瘤),缺乏对多种GI疾病的普适性诊断能力。这些技术瓶颈严重制约了AI在消化内镜领域的临床应用转化。

针对这一挑战,印度Chitkara大学工程学院的研究团队在《Scientific Reports》发表创新成果,提出名为EfficientViT的混合深度学习框架。该研究巧妙融合了EfficientNetB0卷积神经网络(CNN)的局部特征提取优势与Vision Transformer(ViT)的全局注意力机制,通过双流处理架构(q1路径处理局部细节,q2路径捕获全局依赖)实现多尺度特征融合。在技术方法上,研究采用五折交叉验证,使用Kvasir数据集(包含8类4000张内镜图像),通过卷积嵌入和位置编码将EfficientNetB0提取的特征转换为Transformer兼容的token序列,最终通过密集层完成分类。

研究结果部分,模型架构部分显示EfficientViT包含5.1M参数,其中可训练参数占99.2%。性能评估显示五折交叉验证平均准确率达99.82%,显著优于MobileNet-ViT(99.60%)和现有最佳模型。消融实验证实,移除EfficientNetB0使准确率下降8.52%,删除ViT模块导致6.7%的性能损失,验证了混合架构的必要性。可视化分析通过Grad-CAM和注意力热图证明模型能准确定位病变区域,预测置信度分布显示90%以上预测具有高置信度(>0.95)。

在讨论与结论部分,研究者强调EfficientViT的创新性体现在三个方面:首次实现CNN与Transformer在GI疾病分类中的协同优化;通过双流处理平衡计算效率与特征完整性;在保持轻量化(仅1.27B FLOPs)的同时达到临床级精度。与现有技术对比,该模型将结肠息肉检测的AUROC提升至0.9928,对"正常-z线"与"食管炎"等易混淆类别的区分能力显著增强。研究同时指出,未来工作将探索时序特征分析以处理内镜视频数据,并通过联邦学习框架解决医疗数据隐私问题。这项研究为胃肠道疾病的智能化诊断树立了新标杆,其模块化设计也为其他医学影像分析任务提供了可借鉴的技术范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号