基于注意力融合混合深度学习模型的结肠癌检测方法研究

《Scientific Reports》:Hybrid deep learning with attention fusion for enhanced colon cancer detection

【字体: 时间:2025年11月29日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对结肠癌早期诊断中传统方法存在的主观性强、效率低等问题,提出一种结合EfficientNet-B3与Vision Transformer的混合深度学习模型,通过注意力融合机制整合局部纹理与全局上下文特征。在Kvasir内镜数据集上实现96.2%的准确率和0.961的MCC值,显著优于单一架构模型。该模型为结肠癌自动化诊断提供了高精度、可解释的AI解决方案,对降低临床诊断负担具有重要价值。

  
在全球范围内,结直肠癌(Colorectal Cancer, CRC)是发病率与致死率均位居前列的恶性肿瘤。早期发现和准确诊断对于提升患者生存率至关重要,然而传统诊断依赖病理医师人工判读组织切片,存在耗时长、主观性强、不同医师间判断差异大等问题。近年来,人工智能技术特别是深度学习在医学影像分析中展现出强大潜力,其中卷积神经网络(CNN)和视觉Transformer(Vision Transformer, ViT)等技术已被广泛应用于癌症图像的自动分类与检测。尽管如此,现有方法仍面临一些关键挑战:CNN模型擅长捕捉局部特征但难以建模长程依赖关系;ViT能够捕获全局上下文却需要大量数据支撑,且对局部细节的敏感性较弱;此外,医学图像类别不平衡、模型泛化能力不足、计算成本高等问题也限制了其在临床中的广泛应用。
为了解决上述问题,由Süheyla Demirtas Alpsalaz、Emrah Aslan、Yildirim Ozüpak、Feyyaz Alpsalaz、Hasan Uzel与Viktoria Bereznychenko组成的研究团队在《Scientific Reports》上发表了一项创新性研究,提出了一种名为“Hybrid deep learning with attention fusion for enhanced colon cancer detection”的混合深度学习框架。该研究旨在通过结合EfficientNet-BB3的局部特征提取能力与Vision Transformer的全局注意力机制,并引入多头部注意力融合模块,实现更精准、鲁棒且可解释的结肠癌内镜图像分类。
为验证方法的有效性,研究人员选用了公开的Kvasir肠道内镜图像数据集,该数据集包含八类图像,如“染色切除边缘”“溃疡性结肠炎”“息肉”等。图像分辨率不一,且来源于多家医院,具有一定的域差异挑战。研究团队对图像进行了统一预处理(如缩放至224×224像素)并采用数据增强技术提升模型泛化能力。模型主体由EfficientNet-BB3分支和Vision Transformer分支构成,通过注意力融合模块将两者提取的特征进行自适应加权融合,最后由多层感知机(MLP)完成分类。训练过程中使用混合精度训练以提升效率,并以马修斯相关系数(MCC)作为模型选择的主要指标。

主要技术方法

研究采用Kvasir内镜数据集,包含多种结肠部位与病变类型的图像。通过EfficientNet-BB3提取局部纹理特征,Vision Transformer捕捉全局上下文信息,利用多头部注意力融合机制整合双路特征,并由MLP模块实现端到端的八分类任务。训练中使用AdamW优化器、交叉熵损失函数,并引入梯度加权类激活映射(Grad-CAM)增强模型可解释性。

模型性能达到先进水平

实验结果显示,该混合模型在测试集上准确率达到96.2%,MCC值为0.961,显著高于单一模型(EfficientNet-BB3准确率89%,ViT为88%)以及其他主流方法。混淆矩阵分析表明模型对多数类别识别准确,尤其在“染色切除息肉”“溃疡性结肠炎”等类别上表现突出,但在“食管炎”与“正常Z线”之间存在一定混淆,可能与两者黏膜结构相似有关。

注意力融合机制提升特征整合效果

通过消融实验对比不同融合策略(如拼接、加权相加等),发现基于多头部注意力的融合模块能有效协调局部与全局特征,提升分类精度至96.2%,显著优于基线模型。Grad-CAM可视化结果进一步显示,模型注意力区域与病理学特征高度吻合,如在息肉图像中聚焦于病变中心,在炎症类别中激活区域与黏膜异常一致,证明了模型决策的临床可解释性。

训练过程稳定,泛化能力强

训练损失与验证损失曲线均呈现快速下降后平稳收敛的趋势,训练与验证准确率曲线间隙小且保持稳定,说明模型未出现明显过拟合,具有较强的泛化能力。五折交叉验证中模型平均准确率达95.7±0.35%,进一步验证其稳定性。

在多项指标上超越现有方法

与当前主流方法对比显示,该混合模型在Kvasir数据集上以96.2%的准确率显著优于空间注意力ConvMixer(93.3%)、PCA-LDA(90.0%)等方法。统计检验(如McNemar检验)结果表明其性能提升具有显著性(p<0.01)。此外,模型在AUC、Brier分数等指标上也表现优异,说明其不仅分类精度高,预测概率校准良好。

结论与展望

本研究提出的混合深度学习模型通过注意力融合机制成功整合了CNN与Transformer的优势,在结肠癌内镜图像分类中实现了高精度、高鲁棒性和良好可解释性。尽管存在轻微过拟合倾向,但通过正则化与数据增强策略已得到有效控制。该模型为计算机辅助诊断系统提供了可靠的技术基础,有望在临床中辅助医生提升诊断效率与一致性。未来工作将聚焦于多中心数据验证、多模态信息融合以及轻量化部署,进一步推动人工智能在结肠癌精准医疗中的应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号