
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于EfficientViT混合深度学习框架的胃肠道疾病分类研究:高效精准诊断新突破
【字体: 大 中 小 】 时间:2025年07月25日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对胃肠道疾病(GI)诊断依赖主观内镜检查的临床痛点,创新性提出EfficientViT混合深度学习框架,通过整合EfficientNetB0的局部特征提取能力与Vision Transformer(ViT)的全局注意力机制,实现对8类GI疾病的精准分类。研究在Kvasir数据集上取得99.82%的准确率,为AI辅助内镜诊断提供了高效可靠的解决方案。
胃肠道疾病是全球发病率和死亡率居高不下的健康威胁,传统内镜检查高度依赖医师经验且耗时费力。随着深度学习技术在医学影像分析领域的突破,计算机辅助诊断(CAD)系统为胃肠道疾病筛查带来了新机遇。然而现有方法存在明显局限:基于CNN的模型难以捕捉全局上下文关系,而纯Transformer架构需要海量数据支持。更关键的是,多数系统仅针对特定病症(如息肉或肿瘤),缺乏对多种GI疾病的普适性诊断能力。这些技术瓶颈严重制约了AI在消化内镜领域的临床应用转化。
针对这一挑战,印度Chitkara大学工程学院的研究团队在《Scientific Reports》发表创新成果,提出名为EfficientViT的混合深度学习框架。该研究巧妙融合了EfficientNetB0卷积神经网络(CNN)的局部特征提取优势与Vision Transformer(ViT)的全局注意力机制,通过双流处理架构(q1路径处理局部细节,q2路径捕获全局依赖)实现多尺度特征融合。在技术方法上,研究采用五折交叉验证,使用Kvasir数据集(包含8类4000张内镜图像),通过卷积嵌入和位置编码将EfficientNetB0提取的特征转换为Transformer兼容的token序列,最终通过密集层完成分类。
研究结果部分,模型架构部分显示EfficientViT包含5.1M参数,其中可训练参数占99.2%。性能评估显示五折交叉验证平均准确率达99.82%,显著优于MobileNet-ViT(99.60%)和现有最佳模型。消融实验证实,移除EfficientNetB0使准确率下降8.52%,删除ViT模块导致6.7%的性能损失,验证了混合架构的必要性。可视化分析通过Grad-CAM和注意力热图证明模型能准确定位病变区域,预测置信度分布显示90%以上预测具有高置信度(>0.95)。
在讨论与结论部分,研究者强调EfficientViT的创新性体现在三个方面:首次实现CNN与Transformer在GI疾病分类中的协同优化;通过双流处理平衡计算效率与特征完整性;在保持轻量化(仅1.27B FLOPs)的同时达到临床级精度。与现有技术对比,该模型将结肠息肉检测的AUROC提升至0.9928,对"正常-z线"与"食管炎"等易混淆类别的区分能力显著增强。研究同时指出,未来工作将探索时序特征分析以处理内镜视频数据,并通过联邦学习框架解决医疗数据隐私问题。这项研究为胃肠道疾病的智能化诊断树立了新标杆,其模块化设计也为其他医学影像分析任务提供了可借鉴的技术范式。
生物通微信公众号
知名企业招聘