基于注意力融合混合深度学习模型的结肠癌检测方法研究
《Scientific Reports》:Hybrid deep learning with attention fusion for enhanced colon cancer detection
【字体:
大
中
小
】
时间:2025年11月29日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对结肠癌早期诊断中传统方法存在的主观性强、效率低等问题,提出一种结合EfficientNet-B3与Vision Transformer的混合深度学习模型,通过注意力融合机制整合局部纹理与全局上下文特征。在Kvasir内镜数据集上实现96.2%的准确率和0.961的MCC值,显著优于单一架构模型。该模型为结肠癌自动化诊断提供了高精度、可解释的AI解决方案,对降低临床诊断负担具有重要价值。
在全球范围内,结直肠癌(Colorectal Cancer, CRC)是发病率与致死率均位居前列的恶性肿瘤。早期发现和准确诊断对于提升患者生存率至关重要,然而传统诊断依赖病理医师人工判读组织切片,存在耗时长、主观性强、不同医师间判断差异大等问题。近年来,人工智能技术特别是深度学习在医学影像分析中展现出强大潜力,其中卷积神经网络(CNN)和视觉Transformer(Vision Transformer, ViT)等技术已被广泛应用于癌症图像的自动分类与检测。尽管如此,现有方法仍面临一些关键挑战:CNN模型擅长捕捉局部特征但难以建模长程依赖关系;ViT能够捕获全局上下文却需要大量数据支撑,且对局部细节的敏感性较弱;此外,医学图像类别不平衡、模型泛化能力不足、计算成本高等问题也限制了其在临床中的广泛应用。
为了解决上述问题,由Süheyla Demirtas Alpsalaz、Emrah Aslan、Yildirim Ozüpak、Feyyaz Alpsalaz、Hasan Uzel与Viktoria Bereznychenko组成的研究团队在《Scientific Reports》上发表了一项创新性研究,提出了一种名为“Hybrid deep learning with attention fusion for enhanced colon cancer detection”的混合深度学习框架。该研究旨在通过结合EfficientNet-BB3的局部特征提取能力与Vision Transformer的全局注意力机制,并引入多头部注意力融合模块,实现更精准、鲁棒且可解释的结肠癌内镜图像分类。
为验证方法的有效性,研究人员选用了公开的Kvasir肠道内镜图像数据集,该数据集包含八类图像,如“染色切除边缘”“溃疡性结肠炎”“息肉”等。图像分辨率不一,且来源于多家医院,具有一定的域差异挑战。研究团队对图像进行了统一预处理(如缩放至224×224像素)并采用数据增强技术提升模型泛化能力。模型主体由EfficientNet-BB3分支和Vision Transformer分支构成,通过注意力融合模块将两者提取的特征进行自适应加权融合,最后由多层感知机(MLP)完成分类。训练过程中使用混合精度训练以提升效率,并以马修斯相关系数(MCC)作为模型选择的主要指标。
主要技术方法
研究采用Kvasir内镜数据集,包含多种结肠部位与病变类型的图像。通过EfficientNet-BB3提取局部纹理特征,Vision Transformer捕捉全局上下文信息,利用多头部注意力融合机制整合双路特征,并由MLP模块实现端到端的八分类任务。训练中使用AdamW优化器、交叉熵损失函数,并引入梯度加权类激活映射(Grad-CAM)增强模型可解释性。
模型性能达到先进水平
实验结果显示,该混合模型在测试集上准确率达到96.2%,MCC值为0.961,显著高于单一模型(EfficientNet-BB3准确率89%,ViT为88%)以及其他主流方法。混淆矩阵分析表明模型对多数类别识别准确,尤其在“染色切除息肉”“溃疡性结肠炎”等类别上表现突出,但在“食管炎”与“正常Z线”之间存在一定混淆,可能与两者黏膜结构相似有关。
注意力融合机制提升特征整合效果
通过消融实验对比不同融合策略(如拼接、加权相加等),发现基于多头部注意力的融合模块能有效协调局部与全局特征,提升分类精度至96.2%,显著优于基线模型。Grad-CAM可视化结果进一步显示,模型注意力区域与病理学特征高度吻合,如在息肉图像中聚焦于病变中心,在炎症类别中激活区域与黏膜异常一致,证明了模型决策的临床可解释性。
训练过程稳定,泛化能力强
训练损失与验证损失曲线均呈现快速下降后平稳收敛的趋势,训练与验证准确率曲线间隙小且保持稳定,说明模型未出现明显过拟合,具有较强的泛化能力。五折交叉验证中模型平均准确率达95.7±0.35%,进一步验证其稳定性。
在多项指标上超越现有方法
与当前主流方法对比显示,该混合模型在Kvasir数据集上以96.2%的准确率显著优于空间注意力ConvMixer(93.3%)、PCA-LDA(90.0%)等方法。统计检验(如McNemar检验)结果表明其性能提升具有显著性(p<0.01)。此外,模型在AUC、Brier分数等指标上也表现优异,说明其不仅分类精度高,预测概率校准良好。
结论与展望
本研究提出的混合深度学习模型通过注意力融合机制成功整合了CNN与Transformer的优势,在结肠癌内镜图像分类中实现了高精度、高鲁棒性和良好可解释性。尽管存在轻微过拟合倾向,但通过正则化与数据增强策略已得到有效控制。该模型为计算机辅助诊断系统提供了可靠的技术基础,有望在临床中辅助医生提升诊断效率与一致性。未来工作将聚焦于多中心数据验证、多模态信息融合以及轻量化部署,进一步推动人工智能在结肠癌精准医疗中的应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号