基于EfficientViT混合深度学习框架的胃肠道疾病分类研究：高效精准诊断新突破

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月25日 来源：Scientific Reports 3.8

编辑推荐：

　　本研究针对胃肠道疾病(GI)诊断依赖主观内镜检查的临床痛点，创新性提出EfficientViT混合深度学习框架，通过整合EfficientNetB0的局部特征提取能力与Vision Transformer(ViT)的全局注意力机制，实现对8类GI疾病的精准分类。研究在Kvasir数据集上取得99.82%的准确率，为AI辅助内镜诊断提供了高效可靠的解决方案。

胃肠道疾病是全球发病率和死亡率居高不下的健康威胁，传统内镜检查高度依赖医师经验且耗时费力。随着深度学习技术在医学影像分析领域的突破，计算机辅助诊断(CAD)系统为胃肠道疾病筛查带来了新机遇。然而现有方法存在明显局限：基于CNN的模型难以捕捉全局上下文关系，而纯Transformer架构需要海量数据支持。更关键的是，多数系统仅针对特定病症（如息肉或肿瘤），缺乏对多种GI疾病的普适性诊断能力。这些技术瓶颈严重制约了AI在消化内镜领域的临床应用转化。

针对这一挑战，印度Chitkara大学工程学院的研究团队在《Scientific Reports》发表创新成果，提出名为EfficientViT的混合深度学习框架。该研究巧妙融合了EfficientNetB0卷积神经网络(CNN)的局部特征提取优势与Vision Transformer(ViT)的全局注意力机制，通过双流处理架构（q1路径处理局部细节，q2路径捕获全局依赖）实现多尺度特征融合。在技术方法上，研究采用五折交叉验证，使用Kvasir数据集（包含8类4000张内镜图像），通过卷积嵌入和位置编码将EfficientNetB0提取的特征转换为Transformer兼容的token序列，最终通过密集层完成分类。

研究结果部分，模型架构部分显示EfficientViT包含5.1M参数，其中可训练参数占99.2%。性能评估显示五折交叉验证平均准确率达99.82%，显著优于MobileNet-ViT(99.60%)和现有最佳模型。消融实验证实，移除EfficientNetB0使准确率下降8.52%，删除ViT模块导致6.7%的性能损失，验证了混合架构的必要性。可视化分析通过Grad-CAM和注意力热图证明模型能准确定位病变区域，预测置信度分布显示90%以上预测具有高置信度（>0.95）。

在讨论与结论部分，研究者强调EfficientViT的创新性体现在三个方面：首次实现CNN与Transformer在GI疾病分类中的协同优化；通过双流处理平衡计算效率与特征完整性；在保持轻量化（仅1.27B FLOPs）的同时达到临床级精度。与现有技术对比，该模型将结肠息肉检测的AUROC提升至0.9928，对"正常-z线"与"食管炎"等易混淆类别的区分能力显著增强。研究同时指出，未来工作将探索时序特征分析以处理内镜视频数据，并通过联邦学习框架解决医疗数据隐私问题。这项研究为胃肠道疾病的智能化诊断树立了新标杆，其模块化设计也为其他医学影像分析任务提供了可借鉴的技术范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号