具有全局和局部类别感知能力的医学图像分割网络
《Biomedical Signal Processing and Control》:Global and local category aware network for medical images segmentation
【字体:
大
中
小
】
时间:2025年11月20日
来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
医疗图像分割面临低对比度、复杂器官形态等挑战,本文提出GLCAN模型,通过全局类别感知(GCA)模块显式提取类中心,局部类别感知(LCA)模块结合仿射变换(ATB)动态调整窗口以适应医学图像的解剖结构变化,实现全局与局部类别信息的协同建模。实验表明GLCAN在6个公开数据集上达到SOTA性能。
在医学图像分割领域,面对图像中像素对比度低、器官形态复杂变化等挑战,传统方法在提取物体内部一致性特征和物体之间显著性特征时存在困难,导致图像边界模糊、结构不完整,进而增加了分割任务的难度。为此,本文提出了一种新的医学图像分割模型——GLCAN,并引入了一种新颖的类别感知概念,以更好地表达像素之间的差异。同时,设计了基于通道先验的全局与局部类别感知模块,该模块主要由显式的全局类别感知(GCA)块和隐式的局部类别感知(LCA)块组成。GCA块通过估计像素的潜在类别信息,引导模型对全局上下文信息进行建模,使同一类别的特征更容易聚集,不同类别的特征更容易区分。LCA块则通过隐式生成局部类别中心,作为连接像素与全局潜在类别信息的桥梁。此外,考虑到医学图像中器官形状的不规则性和方向变化,LCA块中引入了仿射变换块(ATB),用于动态调整窗口的角度和位置,使模型能够适应复杂的纹理特征和像素值的变化。实验评估表明,GLCAN在六个不同的公开数据集上取得了最先进的性能,验证了其在医学图像分割中的有效性。
医学图像分割是医学图像分析中的关键技术,为临床诊断和病理研究提供了重要的技术支持。然而,手动标注特定器官和病变区域不仅耗时耗力,还高度依赖专业技能,使得难以满足实际应用中对高效和精确处理的需求。此外,分割的准确性受到多种挑战的影响,包括标注数据不足、标注过程困难,以及由于疲劳等主观因素导致的人类判断准确性下降。为了解决这些问题,研究人员积极探索计算机视觉技术,开发更加准确和稳健的分割系统,以克服手动标注的局限性,提高分割结果的可靠性。
近年来,基于自注意力机制的Transformer架构在计算机视觉的多个任务中取得了显著进展。与CNN相比,Transformer网络如SETR通过将二维图像转换为一维序列,有效地捕捉长距离依赖关系。然而,在医学图像分割中的应用仍然面临诸多挑战,包括位置编码不足、需要大规模标注数据集,以及依赖预训练网络(如CNN编码器),这些都可能影响其在医学场景中的性能。Swin Transformer通过滑动窗口机制和引入归纳偏置,缓解了计算复杂度问题,同时保留了全局注意力。然而,这些网络在处理医学图像中复杂的背景、小类别特征差异以及不规则的器官形态时仍存在一定的局限性。
一些研究者已经认识到类别信息的重要性,并探索了获取或融合类别信息的方法。CGA-Net通过构建基于两种邻域类型的特征关系,实现分割任务,判断像素是否与邻近像素属于同一类别。CG-Swin则从输入图像中提取基于类别的语义特征,并将其与Swin Transformer编码器提取的多级特征进行关联。此外,ACFNet和OCRNet等方法通过引入类别级别的上下文(即类中心)来建模类别级别的语义信息。然而,大多数现有方法仍存在显著的局限性:一方面,它们主要关注全局类别特征的表示,缺乏将全局类别中心与局部像素引导协调建模的机制,导致像素级特征与类别先验之间的耦合和交互效率低下;另一方面,当前基于Transformer的分割框架通常采用固定的窗口划分策略,缺乏对动态解剖结构变化的适应能力。这些局限性在医学图像分割中尤为明显,因为医学图像具有小类别特征差异和复杂的解剖结构,现有方法的不足显著影响了分割的一致性和类别区分度,尤其是在处理小器官或边界模糊的区域时。当处理具有明显各向异性特征(如细长变形的血管)或受呼吸运动影响的器官(如肝脏)时,固定窗口策略会导致局部特征提取不足,进一步限制模型性能。
为了解决上述问题,本文提出了一种全局与局部类别感知网络,旨在通过类别信息提升像素特征的表示能力。该网络采用了一种混合架构,结合了基于CNN的编码器和专门设计的基于Transformer的解码器。其方法的动机如图1所示,在医学图像中,网络提取的原始特征在不同类别特征的边界区域难以准确区分,这种模糊性可能影响分割性能。为了解决这一问题,通过有效利用类别特征提升特征的区分能力。然而,类别特征与语义特征之间的距离较大,因此采用局部窗口自注意力机制,将类别信息传播到像素特征中。具体来说,全局类别中心通过全局类别感知块提取为值V,局部类别中心通过局部类别感知块隐式提取为键K,当前提取的像素特征则在窗口划分前作为查询Q。其目的是通过嵌入类别先验信息建立窗口之间的联系,并利用局部类别中心作为连接像素与全局类别中心的中介。特别是,为了缓解由于刚性窗口划分导致的边缘损伤,并适应医学图像中复杂的像素变化,我们在隐式提取局部类别中心的过程中引入了仿射变换块(ATB),使窗口能够动态适应不同尺度的物体。综上所述,本文的贡献主要有三个方面。
首先,设计了基于通道先验的全局与局部类别感知模块,该模块通过通道注意力块增强关键特征,采用深度监督策略生成初步的分割结果,显式提取全局类别中心,并通过隐式提取的局部类别中心建立与像素级语义特征的桥梁,从而获得更加一致的同类别特征和更易区分的异类别特征。其次,在隐式提取局部类别中心的过程中引入了仿射变换块,通过动态调整窗口的大小、位置和角度,使原本刚性的窗口能够适应医学图像中的复杂像素变化,从而减少边缘损伤。最后,提出了一种全局与局部类别感知网络(GLCAN),并基于Synapse和ACDC两个公开数据集验证了该方法的可行性和有效性。实验结果表明,该方法在分割性能上优于当前流行的算法。
在医学图像分割任务中,CNN已经成为核心技术基础。全卷积网络(FCN)和U-Net是该领域中广泛采用的两种架构。FCN在编码阶段通过连续的卷积和池化操作捕捉图像特征,然后在解码阶段通过转置卷积逐层提升图像分辨率。尽管FCN在特征提取方面取得了一定成果,但在处理复杂特征时仍存在一定的缺陷。相比之下,U-Net通过引入跳跃连接,将编码阶段的特征与解码阶段进行融合,从而提高分割精度。然而,这些方法在处理医学图像中复杂的背景和噪声时仍存在一定的局限性,特别是在提取精确边界和区分不同类别特征方面。
本文提出的GLCAN模型采用了一个编码器-解码器结构,基于全局与局部类别感知策略。编码器部分使用了ResNet-50作为主干网络,用于提取多尺度的特征。解码器部分则由通道先验全局与局部类别感知模块(CPGLCAM)和分割头(SH)组成。CPGLCAM模块通过通道注意力机制增强关键特征,并结合深度监督策略生成初步的分割结果。同时,该模块能够显式提取全局类别中心,并通过隐式方式提取局部类别中心,作为连接全局类别中心与像素级语义特征的桥梁。这种设计使得模型能够更有效地捕捉图像中的全局上下文信息,同时在局部区域保持良好的特征区分能力。
分割头(SH)则负责最终的分割任务,通过将编码器提取的语义特征与CPGLCAM模块生成的特征进行融合,实现更精确的边界预测。整个模型在结构上融合了CNN和Transformer的优势,既能够高效地提取特征,又能够捕捉长距离依赖关系。此外,通过引入仿射变换块(ATB),模型能够动态调整窗口的大小、位置和角度,使其适应不同尺度和复杂形状的医学图像,从而减少边缘损伤,提高分割的鲁棒性。
为了验证GLCAN的性能,我们对多个公开数据集进行了实验评估。其中包括Kvasir-SEG、CVC-ClinicDB、CVC-ColonDB、ISIC 2017、Synapse和ACDC。这些数据集涵盖了多种医学图像类型,包括肠道、皮肤和脑部等器官的图像。在Kvasir-SEG数据集中,包含1000张息肉图像及其对应的地面真实掩膜,分辨率范围从332 × 487到1920 × 1072像素。我们按照官方建议,将数据划分为880张用于训练,120张用于验证。在CVC-ClinicDB数据集中,包含从结肠镜视频中提取的多个息肉图像,共有612对图像和对应的掩膜。我们采用490/61/61的划分策略进行实验。在CVC-ColonDB数据集中,包含多个结肠图像,用于评估模型在处理复杂器官形态时的性能。在ISIC 2017数据集中,包含皮肤病变图像,用于测试模型在小器官分割任务中的表现。在Synapse和ACDC数据集中,分别包含脑部和心脏的医学图像,用于验证模型在不同医学场景下的适应能力。
实验结果表明,GLCAN在这些数据集上的分割性能优于当前流行的算法。特别是在处理具有复杂边界和小器官的图像时,模型表现出更高的精确性和鲁棒性。此外,在处理受呼吸运动影响的器官(如肝脏)时,GLCAN能够通过动态调整窗口的位置和角度,减少因固定窗口策略导致的局部特征提取不足的问题,从而提高分割结果的准确性。这些实验结果验证了GLCAN在医学图像分割中的有效性,并展示了其在不同医学图像类型中的广泛适用性。
在进行模型设计时,我们还进行了消融实验,以评估GLCAN中各个模块的必要性和有效性。消融实验基于Synapse数据集进行,分析了GCA和LCA模块(即GLCAB*)以及ATB模块的贡献。此外,我们还评估了局部窗口块数量对模型性能的影响,以及如何将CAB模块引入到模型中。通过这些实验,我们确定了最优的模型配置,并验证了各个模块对整体性能的提升作用。结果显示,引入ATB模块能够显著改善分割效果,特别是在处理边缘模糊和小器官时,ATB模块通过动态调整窗口的大小和角度,使模型能够更好地适应图像的复杂变化。
除了模型的结构设计,我们还对训练数据的标注质量进行了分析。医学图像的标注通常需要专业人员进行,而标注数据的不足可能导致模型学习能力下降。为了缓解这一问题,我们采用了一种深度监督策略,在模型的不同阶段引入标注信息,从而提高分割的准确性。此外,我们还引入了类别感知机制,通过显式提取全局类别中心和隐式提取局部类别中心,使模型能够更有效地捕捉图像中的类别信息,并将其与像素特征进行融合。这种设计不仅提高了模型的鲁棒性,还增强了其对复杂背景和噪声的抵抗能力。
在实际应用中,医学图像分割的挑战不仅来自于图像本身的复杂性,还来自于标注数据的获取和处理。由于医学图像的标注通常需要高度专业化的知识,因此标注数据的获取往往较为困难。此外,标注数据的不完整或不准确也可能影响模型的训练效果。为了应对这些问题,我们采用了多种策略,包括深度监督和类别感知,以提高模型的训练效率和分割精度。同时,我们还对模型的泛化能力进行了评估,以确保其能够在不同医学图像类型和不同数据集上取得良好的性能。
为了进一步验证GLCAN的有效性,我们还对模型的参数设置进行了分析。通过调整局部窗口块的数量和ATB模块的参数,我们能够优化模型的性能,使其在处理不同尺度和复杂形状的医学图像时更加高效。此外,我们还对模型的训练过程进行了优化,以提高其收敛速度和稳定性。这些优化措施不仅提升了模型的分割性能,还增强了其在实际应用中的适用性。
在实际应用中,医学图像分割的挑战还包括模型的计算效率和实时性。由于医学图像通常具有较高的分辨率和复杂的纹理特征,因此对模型的计算能力提出了更高的要求。为了提高模型的计算效率,我们采用了轻量化的网络结构,并结合了通道先验和局部窗口机制,以减少不必要的计算步骤。同时,通过引入仿射变换块(ATB),我们能够在保持分割精度的同时,提高模型的运行速度,使其能够适应实际应用中的实时需求。
此外,模型的可解释性也是医学图像分割的重要考量因素。由于医学图像分割的结果直接关系到临床诊断,因此模型的可解释性对于医生和研究人员来说至关重要。为此,我们对模型的决策过程进行了分析,并引入了类别感知机制,以提高模型的可解释性。通过显式提取全局类别中心和隐式提取局部类别中心,模型能够更清晰地展示其在分割过程中的决策依据,从而增强其在医学场景中的可信度。
在模型的训练过程中,我们还考虑了数据增强策略的应用。由于医学图像的标注数据通常较为有限,因此通过数据增强可以提高模型的泛化能力。我们采用了一系列数据增强技术,包括旋转、翻转、缩放和颜色变换,以增加训练数据的多样性。这些增强措施不仅提高了模型的训练效果,还增强了其在不同医学图像类型上的适应能力。
在模型的部署过程中,我们还考虑了模型的实时性和计算资源的限制。由于医学图像分割通常需要在医院或临床环境中进行,因此模型的运行速度和计算资源占用是重要的考量因素。为此,我们对模型的结构进行了优化,并结合了通道先验和局部窗口机制,以减少不必要的计算步骤。同时,通过引入仿射变换块(ATB),我们能够在保持分割精度的同时,提高模型的运行速度,使其能够适应实际应用中的实时需求。
在模型的评估过程中,我们还考虑了不同数据集的特性。例如,Kvasir-SEG数据集主要包含息肉图像,而CVC-ColonDB数据集则包含结肠镜视频中的多个息肉图像。这些数据集的分辨率和图像内容各不相同,因此在评估模型性能时需要综合考虑不同数据集的特点。通过在多个数据集上的实验,我们验证了GLCAN的泛化能力和适应性,并展示了其在不同医学图像类型上的广泛应用前景。
此外,我们还对模型的鲁棒性进行了评估,以确保其在不同光照条件和图像质量下的稳定性。医学图像的采集环境可能较为复杂,因此图像的质量和光照条件可能影响模型的分割效果。为此,我们对模型进行了优化,使其能够适应不同光照条件和图像质量,从而提高分割的鲁棒性。同时,通过引入类别感知机制,模型能够更有效地区分不同类别的特征,提高分割的准确性。
在模型的优化过程中,我们还考虑了不同损失函数的应用。为了提高模型的分割精度,我们采用了多种损失函数,包括交叉熵损失、Dice损失和边缘损失。这些损失函数能够有效引导模型在分割过程中关注不同类别的特征,并提高分割结果的边界清晰度。同时,通过结合深度监督策略,我们能够在模型的不同阶段引入标注信息,从而提高分割的准确性和鲁棒性。
在模型的部署过程中,我们还考虑了其在不同设备上的适应性。由于医学图像分割可能需要在不同的计算设备上运行,因此模型的计算效率和资源占用是重要的考量因素。为此,我们对模型的结构进行了优化,并结合了通道先验和局部窗口机制,以减少不必要的计算步骤。同时,通过引入仿射变换块(ATB),我们能够在保持分割精度的同时,提高模型的运行速度,使其能够适应不同计算设备的需求。
最后,我们对模型的未来发展方向进行了展望。尽管GLCAN在医学图像分割任务中取得了显著的进展,但仍存在一些局限性。例如,在处理小器官和边界模糊的区域时,模型的性能仍需进一步提升。此外,模型的训练数据仍然存在一定的不足,可能影响其泛化能力。为了应对这些问题,我们提出了进一步的优化方向,包括引入更强大的数据增强策略、改进标注数据的获取方式,以及优化模型的计算效率。这些优化措施将有助于提高模型的性能,使其在实际应用中更加高效和可靠。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号