结直肠癌组织病理学图像分割与分类的混合深度学习框架:融合ResUNet-A、EfficientNet与Swin Transformer的创新方法

【字体: 时间:2025年10月15日 来源:Frontiers in Artificial Intelligence 4.7

编辑推荐:

  本综述提出了一种创新的混合深度学习框架,通过整合ResUNet-A(残差U-Net注意力机制)、EfficientNet(高效网络)和Swin Transformer(滑动窗口Transformer)三大架构,显著提升了结直肠癌(CRC)组织病理学图像的分割精度与分类性能。研究在公开数据集EBHI-Seg上验证了该框架的有效性,实现了93%的准确率、92%的精确度、93%的召回率和93%的F1分数,其分割结果(Dice系数0.91,IoU 0.89)与专家标注高度吻合。该框架有效克服了传统方法在全局上下文建模和细粒度组织鉴别上的局限,为临床病理诊断的自动化、客观化和高效化提供了强有力的工具,展现出巨大的转化应用潜力。

  
引言
结直肠癌(Colorectal Cancer, CRC)是全球范围内癌症相关死亡的主要原因之一。早期检测和精确诊断对于改善患者预后至关重要。传统的组织学评估依赖于人工检查染色组织切片,这一过程耗时、易受观察者主观性影响,且诊断结果可能存在不一致性。近年来,人工智能(AI),特别是深度学习(Deep Learning, DL)在医学图像分析领域取得了显著进展,为疾病的自动检测、分割和分类提供了高精度的方法。卷积神经网络(Convolutional Neural Networks, CNNs)因其能够从原始图像数据中自动提取重要特征,在组织病理学图像处理中显示出巨大价值。然而,传统的CNN模型缺乏对全局上下文的理解,这对于区分形态相似的结直肠癌组织至关重要。为了克服这一局限,混合深度学习框架应运而生,通过结合不同架构的优势以提升性能。
背景研究
残差U-Net(Residual U-Net, ResUNet-A)
U-Net是一种广泛应用于生物医学图像分割的“U形”卷积神经网络架构,由编码器和解码器两部分组成。编码器负责从高分辨率输入图像中提取特征,解码器则通过上采样和跳跃连接(Skip Connections)恢复空间细节,生成最终的分割输出。然而,深度神经网络训练中普遍存在的梯度消失问题会阻碍网络的学习能力。ResUNet-A通过引入残差块(Residual Blocks)来解决这一问题。残差块通过快捷连接(Shortcut Connection)绕过一层或多层网络,其输出可表示为 y = F(x, {Wi}) + x,其中x为输入,y为输出,F(x, {Wi})为一系列卷积、批量归一化和激活函数构成的变换。这种结构使得梯度可以直接传播,从而加速更深层网络的收敛并提升训练稳定性。ResUNet-A进一步集成了注意力机制,能够强调显著的组织学特征,提升分割精度。
高效网络(EfficientNet)
EfficientNet是一种革命性的图像分类架构,以其复合缩放(Compound Scaling)技术而闻名。该技术通过均衡地调整网络的深度、宽度和输入分辨率,在保持计算效率的同时实现高性能。本研究采用EfficientNet-B0作为特征提取器,并利用在ImageNet上预训练的权重进行微调。EfficientNet-B0通过其模块化设计(如MBConv模块)高效地提取复杂的层次特征。其升级版本EfficientNet-B2通过增加模型深度、通道数和输入分辨率(260 × 260),能够编码更精细的空间模式,在计算成本和准确性之间取得了良好平衡,尤其适用于医学图像分类等细粒度任务。
滑动窗口Transformer(Swin Transformer)
视觉Transformer(Vision Transformers, ViTs)通过自注意力(Self-Attention)机制捕获图像中的长程依赖关系,在多项任务中超越了基于局部感受野的CNNs。然而,标准ViT在处理高分辨率图像时计算复杂度较高。Swin Transformer通过引入分层设计和滑动窗口机制解决了这一问题。其处理流程首先将输入图像分割成不重叠的块(Patches),并通过线性嵌入层转换为向量。随后,Swin Transformer块交替使用窗口多头自注意力(Window-based Multi-Head Self-Attention, W-MSA)和移位窗口多头自注意力(Shifted Window-based Multi-Head Self-Attention, SW-MSA)。W-MSA将自注意力计算限制在局部窗口内,显著降低了计算复杂度(从全局MSA的Ω(MSA) = 4hwC2 + 2(hw)2C 降至 W-MSA的 Ω(W-MSA) = 4hwC2 + 2M2hwC,其中h、w为特征图高宽,C为通道数,M为窗口大小)。SW-MSA则通过循环移位建立跨窗口连接,使模型能够捕获全局上下文信息。注意力计算函数为 Attention(Q, K, V) = Softmax(QKT / √d + B),其中Q、K、V分别为查询、键、值矩阵,d为向量维度,B为相对位置偏置。每个Swin Transformer块还包含多层感知机(Multi-Layer Perceptron, MLP)、层归一化(Layer Normalization, LN)和残差连接,共同提升了模型的表征能力和训练稳定性。
方法论
数据收集与预处理
本研究使用的数据集是公开的肠镜活检组织病理学H&E图像分割数据集(Enteroscope Biopsy Histopathological Hematoxylin and Eosin Image Dataset for Image Segmentation Tasks, EBHI-Seg)。该数据集包含4,456张组织病理学图像,其中2,228张为原始H&E染色图像,2,228张为对应的专家标注的真实分割掩码(Ground Truth)。图像采集自中国医科大学附属肿瘤医院(伦理批号:202229)的肠道活检标本,在400倍放大倍数下获取,存储为RGB格式的PNG文件,尺寸统一为224 × 224像素。数据集涵盖了六种结直肠组织类型:正常组织(Normal)、息肉(Polyp)、低级别上皮内瘤变(Low-Grade Intraepithelial Neoplasia, Low-Grade IN)、高级别上皮内瘤变(High-Grade Intraepithelial Neoplasia, High-Grade IN)、腺癌(Adenocarcinoma)和锯齿状腺瘤(Serrated Adenoma)。数据集中存在类别不平衡问题,例如正常组织和锯齿状腺瘤的样本数量较少。
为解决类别不平衡并提升模型鲁棒性,研究采用了系统的数据预处理流程。图像被缩放至128×128像素以平衡计算效率和形态细节保留,像素强度被归一化到[0,1]区间。分类标签进行了整数编码。针对类别不平衡,研究在训练集上应用了三倍数据增强,技术包括缩放(最高20%)、剪切变换(最高0.2)、宽度和高度偏移(最高20%)、随机旋转(最高30度)以及水平翻转。增强后数据集图像总数达到8,912张。数据集按70%训练、15%验证和15%测试的比例进行划分。
模型构建
提出的混合深度学习框架创新性地整合了ResUNet-A、EfficientNet和Swin Transformer。模型架构包含一个共享的编码器主干,该主干包含三个并行流:
  1. 1.
    ResUNet-A编码器:负责捕获多尺度空间特征。其包含残差块、批量归一化、Dropout层(丢弃率0.3)和最大池化下采样,旨在保留精细的空间信息并缓解梯度消失问题。其输出为空间特征张量 Fs = fResUNet-A(X)。
  2. 2.
    EfficientNet特征提取器:基于预训练的EfficientNet-B0模型,用于提取深层次的语义特征。模型最后20层进行微调,并通过全局平均池化(Global Average Pooling)降维。其输出为密集特征向量 Fd = fEfficientNet(X)。
  3. 3.
    Swin Transformer层:用于增强全局上下文感知。该层对输入图像进行处理,利用其自注意力机制建模长程依赖关系,输出富含全局上下文信息的特征表示 Fg = fSwin(X)。
特征融合与任务头:
来自三个分支的特征被融合成一个综合的特征向量 F = ?([Fs ∥ Fd ∥ Fg]),其中?表示融合函数,∥表示拼接操作。该融合特征随后被送入两个任务头:
  • 分割解码器:基于ResUNet-A解码器,利用转置卷积上采样和跳跃连接从空间特征Fs中恢复细节,生成像素级分割掩码 ? = fdecoder(Fs)。
  • 分类器:融合特征F通过一个全连接层和Softmax激活函数,输出对六类组织的概率分布预测 ? = Softmax(WF + b)。
模型使用Adam优化器(初始学习率1e-4)训练100个周期,并采用早停法(耐心值10)和L2权重衰减以防止过拟合。
性能评估与结果
模型在分类和分割任务上均进行了全面评估。评估指标包括准确率(Accuracy)、精确度(Precision)、召回率(Recall)、F1分数(F1-Score)、曲线下面积(Area Under the Curve, AUC)、Dice系数(Dice Coefficient)、交并比(Intersection over Union, IoU)和像素精度(Pixel Accuracy)。
分类结果:
提出的混合模型在分类任务上表现卓越,准确率达到93%,精确度92%,召回率93%,F1分数93%。混淆矩阵显示该模型在所有六个组织类别上均具有较高的对角线值(代表正确分类),误分类率最低,尤其在区分形态相似的类别(如息肉与正常组织、高级别上皮内瘤变与腺癌)时优势明显。接收者操作特征曲线(ROC曲线)分析显示,混合模型在所有类别上的AUC值介于0.94至0.97之间,显著高于单个模型(ResUNet-A: 0.92-0.96, EfficientNet: 0.90-0.94, Swin Transformer: 0.86-0.89),证明了其卓越的判别能力。
分割结果:
在分割任务中,混合模型同样取得了最佳性能,Dice系数为0.91,IoU为0.89,像素精度为0.90。可视化结果显示,模型预测的分割掩码与专家标注的真实掩码高度吻合,能够精确地勾勒出腺体结构、肿瘤区域和正常上皮的边界。相比之下,单独的ResUNet-A(Dice: 0.88, IoU: 0.81)、EfficientNet-U-Net(Dice: 0.85)和Swin-UNet(Dice: 0.84)的分割性能均有所不及。这证实了混合架构在整合局部空间细节和全局上下文信息方面的优势。
讨论与结论
本研究提出的混合ResUNet-A、EfficientNet和Swin Transformer框架,通过协同利用残差学习、高效特征提取和自注意力机制,成功提升了结直肠癌组织病理学图像分析的性能。该框架的创新性在于其多任务设计,将分割与分类集成于统一管道中,分割任务有助于定位组织边界,从而增强分类任务的判别能力,而分类任务则确保学习到的特征具有临床意义。与以往研究相比,本模型在保持高整体精度的同时,显著降低了对具有挑战性类别(如息肉、高级别瘤变)的误分类,其分割结果的可解释性也为临床决策提供了支持。
尽管该框架取得了显著成果,但仍存在一些局限性,例如Transformer组件带来的计算成本较高,可能影响实时临床部署。未来的工作将集中于探索轻量级Transformer模块以降低模型复杂度,改进分割后处理技术以提升边界精度,并在更大规模、多中心数据集上进行验证以增强其泛化能力。
总之,该混合深度学习框架为结直肠癌的自动化、精准化病理诊断提供了一个强大而可靠的工具,展现出巨大的潜力融入数字病理学工作流程,作为病理医生的决策支持系统,辅助进行初筛、可疑区域定位和初步分类,从而减轻工作负担,减少观察者间差异,提高诊断信心,最终改善患者的治疗规划和预后。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号