基于注意力融合混合深度学习模型的结肠癌检测方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Hybrid deep learning with attention fusion for enhanced colon cancer detection

【字体：大中小】 时间：2025年11月29日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对结肠癌早期诊断中传统方法存在的主观性强、效率低等问题，提出一种结合EfficientNet-B3与Vision Transformer的混合深度学习模型，通过注意力融合机制整合局部纹理与全局上下文特征。在Kvasir内镜数据集上实现96.2%的准确率和0.961的MCC值，显著优于单一架构模型。该模型为结肠癌自动化诊断提供了高精度、可解释的AI解决方案，对降低临床诊断负担具有重要价值。

在全球范围内，结直肠癌（Colorectal Cancer, CRC）是发病率与致死率均位居前列的恶性肿瘤。早期发现和准确诊断对于提升患者生存率至关重要，然而传统诊断依赖病理医师人工判读组织切片，存在耗时长、主观性强、不同医师间判断差异大等问题。近年来，人工智能技术特别是深度学习在医学影像分析中展现出强大潜力，其中卷积神经网络（CNN）和视觉Transformer（Vision Transformer, ViT）等技术已被广泛应用于癌症图像的自动分类与检测。尽管如此，现有方法仍面临一些关键挑战：CNN模型擅长捕捉局部特征但难以建模长程依赖关系；ViT能够捕获全局上下文却需要大量数据支撑，且对局部细节的敏感性较弱；此外，医学图像类别不平衡、模型泛化能力不足、计算成本高等问题也限制了其在临床中的广泛应用。

为了解决上述问题，由Süheyla Demirtas Alpsalaz、Emrah Aslan、Yildirim Ozüpak、Feyyaz Alpsalaz、Hasan Uzel与Viktoria Bereznychenko组成的研究团队在《Scientific Reports》上发表了一项创新性研究，提出了一种名为“Hybrid deep learning with attention fusion for enhanced colon cancer detection”的混合深度学习框架。该研究旨在通过结合EfficientNet-BB3的局部特征提取能力与Vision Transformer的全局注意力机制，并引入多头部注意力融合模块，实现更精准、鲁棒且可解释的结肠癌内镜图像分类。

为验证方法的有效性，研究人员选用了公开的Kvasir肠道内镜图像数据集，该数据集包含八类图像，如“染色切除边缘”“溃疡性结肠炎”“息肉”等。图像分辨率不一，且来源于多家医院，具有一定的域差异挑战。研究团队对图像进行了统一预处理（如缩放至224×224像素）并采用数据增强技术提升模型泛化能力。模型主体由EfficientNet-BB3分支和Vision Transformer分支构成，通过注意力融合模块将两者提取的特征进行自适应加权融合，最后由多层感知机（MLP）完成分类。训练过程中使用混合精度训练以提升效率，并以马修斯相关系数（MCC）作为模型选择的主要指标。

主要技术方法

研究采用Kvasir内镜数据集，包含多种结肠部位与病变类型的图像。通过EfficientNet-BB3提取局部纹理特征，Vision Transformer捕捉全局上下文信息，利用多头部注意力融合机制整合双路特征，并由MLP模块实现端到端的八分类任务。训练中使用AdamW优化器、交叉熵损失函数，并引入梯度加权类激活映射（Grad-CAM）增强模型可解释性。

模型性能达到先进水平

实验结果显示，该混合模型在测试集上准确率达到96.2%，MCC值为0.961，显著高于单一模型（EfficientNet-BB3准确率89%，ViT为88%）以及其他主流方法。混淆矩阵分析表明模型对多数类别识别准确，尤其在“染色切除息肉”“溃疡性结肠炎”等类别上表现突出，但在“食管炎”与“正常Z线”之间存在一定混淆，可能与两者黏膜结构相似有关。

注意力融合机制提升特征整合效果

通过消融实验对比不同融合策略（如拼接、加权相加等），发现基于多头部注意力的融合模块能有效协调局部与全局特征，提升分类精度至96.2%，显著优于基线模型。Grad-CAM可视化结果进一步显示，模型注意力区域与病理学特征高度吻合，如在息肉图像中聚焦于病变中心，在炎症类别中激活区域与黏膜异常一致，证明了模型决策的临床可解释性。

训练过程稳定，泛化能力强

训练损失与验证损失曲线均呈现快速下降后平稳收敛的趋势，训练与验证准确率曲线间隙小且保持稳定，说明模型未出现明显过拟合，具有较强的泛化能力。五折交叉验证中模型平均准确率达95.7±0.35%，进一步验证其稳定性。

在多项指标上超越现有方法

与当前主流方法对比显示，该混合模型在Kvasir数据集上以96.2%的准确率显著优于空间注意力ConvMixer（93.3%）、PCA-LDA（90.0%）等方法。统计检验（如McNemar检验）结果表明其性能提升具有显著性（p<0.01）。此外，模型在AUC、Brier分数等指标上也表现优异，说明其不仅分类精度高，预测概率校准良好。

结论与展望

本研究提出的混合深度学习模型通过注意力融合机制成功整合了CNN与Transformer的优势，在结肠癌内镜图像分类中实现了高精度、高鲁棒性和良好可解释性。尽管存在轻微过拟合倾向，但通过正则化与数据增强策略已得到有效控制。该模型为计算机辅助诊断系统提供了可靠的技术基础，有望在临床中辅助医生提升诊断效率与一致性。未来工作将聚焦于多中心数据验证、多模态信息融合以及轻量化部署，进一步推动人工智能在结肠癌精准医疗中的应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号