基于 EfficientNetB3 的组织病理图像肺癌和结肠癌检测的鲁棒迁移学习方法

【字体: 时间:2025年05月27日 来源:Healthcare Analytics CS4.4

编辑推荐:

  为提升肺癌与结肠癌检测准确性,研究人员针对传统病理诊断耗时长、依赖专家经验等问题,利用 EfficientNetB3 模型对 LC25000 及 GDC 数据集的组织病理图像展开研究,实现 99.39% 准确率,证明该模型可简化诊断流程,为自动化癌症检测提供新方向。

  癌症作为全球主要致死疾病之一,其中肺癌和结肠癌因其高发病率与死亡率,严重威胁人类健康。传统的组织病理分析虽为诊断金标准,但存在需要有创活检、依赖病理学家手动判读、耗时长且存在观察者间差异等问题。CT 等影像学方法虽常用,但存在难以区分良恶性结节、假阳性率高及辐射暴露等局限。在此背景下,人工智能(AI)和深度学习(DL)技术的兴起为医学影像分析带来了新希望,如何利用高效的深度学习模型实现肺癌和结肠癌的准确、早期检测成为重要研究方向。
为解决上述问题,相关研究人员开展了利用深度学习模型进行肺癌和结肠癌组织病理图像检测的研究。研究人员使用 LC25000 数据集(包含 25,000 张组织病理图像,均匀分布于结肠腺癌、结肠良性组织、肺腺癌、肺鳞状细胞癌和肺良性组织五个类别),并从美国国家癌症研究所的 GDC 数据门户获取新图像替换部分癌类图像以增强数据集多样性,模拟更丰富的临床场景。该研究相关成果发表在《Healthcare Analytics》。

研究中主要采用的关键技术方法包括:一是使用 EfficientNetB3 模型,这是一种先进的迁移学习架构,具有平衡准确性与计算效率的特点,能直接分析原始组织病理图像,无需大量预处理;二是运用 Grad - CAM 技术,对模型决策进行可视化解释,提升模型的透明度和可靠性;三是采用监督学习方法,将数据集按 80%、12%、8% 的比例划分为训练集、验证集和测试集,并使用 Adamax 优化器、交叉熵损失函数等进行模型训练与优化。

4.1 训练和验证准确性及损失


通过对结合 LC25000 和 GDC 数据集的模型进行训练,前 5 个 epoch 内训练和验证准确性迅速提升,损失值急剧下降,验证损失在第 23 个 epoch 达到最低。模型在训练集、验证集和测试集上分别取得了 100%、97% 和 96.5% 的准确性,表明模型具有良好的泛化能力,未出现显著过拟合。

4.2 模型评估


在综合数据集上,模型整体准确率达 99.39%,加权 F1 - score 为 0.9939,MCC 为 0.9924。对 GDC 子集评估时,准确率为 96.71%,MCC 为 0.9584。良性组织分类表现优异,而肺癌类型间因细胞形态相似存在少量误分类。ROC 曲线和 PR 曲线显示,模型在区分正负样本及平衡精准率与召回率方面表现出色。

4.3 预测解释与可解释性


通过 Grad - CAM 可视化技术,模型在正确分类的图像中能识别出关键组织病理特征,如结肠腺癌的腺体结构、肺腺癌和鳞状细胞癌的密集不规则细胞群。热图突出了模型决策依赖的区域,证实其聚焦于生物学相关特征,增强了模型预测的可信度。

4.4 讨论


与其他模型相比,EfficientNetB3 作为端到端框架,无需复杂预处理和特征提取,在保持计算效率的同时实现了高准确性。尽管在 GDC 子集上性能略有下降,但仍展示了对真实临床数据的适应性。模型通过正则化技术防止过拟合,且 Grad - CAM 可视化增强了可解释性,使其有别于黑箱模型。尽管存在可能未达最大模型精度等局限,但在计算效率和实际应用方面具有优势。

研究结论表明,EfficientNetB3 在肺癌和结肠癌的组织病理图像分类中表现出色,准确率高达 99.39%,且在不同数据集上具有较强的泛化能力。该模型为癌症的自动化检测提供了一种高效、可解释且计算成本低的解决方案,有助于简化诊断流程,提高诊断准确性,减轻病理学家工作量,在资源有限的临床环境中具有重要应用潜力。未来可进一步探索联邦学习、轻量级架构优化等,以推动 AI 在医学影像领域的更广泛应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号