CFE-PVTSeg:跨域频率增强金字塔视觉变换器分割网络
《Image and Vision Computing》:CFE-PVTSeg:Cross-domain frequency-enhanced pyramid vision transformer segmentation network
【字体:
大
中
小
】
时间:2025年11月19日
来源:Image and Vision Computing 4.2
编辑推荐:
基于Transformer与离散小波变换的多域特征增强结直肠癌息肉分割方法,提出CFE-PVTSeg网络,编码器通过金字塔视觉Transformer提取多尺度空间特征与离散小波变换提取的频率域特征融合,解码器采用不确定性增强模块MS-FUE自适应加权特征,结合可变形卷积与常规卷积增强边界敏感特征,在Kvasir-SEG、CVC-ClinicDB等5个公共数据集上实现Dice系数超93%的分割精度。
本研究聚焦于医学图像处理中的一个关键问题——结肠息肉的分割。结肠癌是全球第三大常见癌症,通常由腺瘤性息肉发展而来,若未及时治疗,这些息肉可能在数年内演变为癌症。因此,息肉的早期检测和准确评估对于降低死亡率至关重要。然而,传统的人工检测方法在效率和一致性方面存在局限,而基于计算机的辅助检测系统因其客观性和可重复性成为重要的替代方案。当前,息肉分割方法主要依赖于卷积神经网络(CNN)或Transformer架构,但这些方法在平衡全局与局部上下文关系以及保留高频结构细节方面存在固有的限制。为了解决这些问题,本研究提出了一种名为CFE-PVTSeg的新型息肉分割网络,该网络结合了多尺度空间特征提取和频率域特征处理,旨在提升分割的准确性和鲁棒性。
CFE-PVTSeg的核心创新在于其编码器和解码器的设计。在编码器部分,该网络通过融合Transformer编码器与小波变换,实现了层次化的特征增强。具体而言,编码器采用金字塔视觉Transformer(PVT)来提取多尺度空间特征,同时利用离散小波变换(DWT)提取频率域特征。通过引入跨域融合机制,该网络能够强化高频成分,从而增强息肉边缘的表示能力。这种设计与传统的基于小波的方法有所不同,后者通常通过小波变换对特征图进行分解,然后使用卷积操作提取特征,再通过逆小波变换增强特征表示。而CFE-PVTSeg则通过将DWT提取的高频信息直接注入PVT的特征中,实现更高效和精确的特征增强。
此外,为了适应息肉高度不规则的形态,CFE-PVTSeg引入了可变形卷积,以动态调整感受野。可变形卷积与常规卷积相结合,一方面增强了对高频信息的聚合能力,另一方面保持了结构的稳定性。这种方法在处理息肉边界模糊和形态复杂的问题上表现出更强的适应性,尤其是在面对不同中心的数据集时,能够有效缓解跨中心泛化瓶颈。在解码器部分,研究团队设计了一个创新的多尺度特征不确定性增强(MS-FUE)模块。该模块利用编码器生成的不确定性图,对上采样后的特征进行自适应加权和细化处理,从而有效抑制不确定成分,促进可靠信息的传播。
通过多级融合策略,CFE-PVTSeg最终输出的特征能够深度整合高层语义信息与低层空间细节,从而实现更精确的息肉分割。实验结果显示,该模型在五个具有挑战性的公开数据集上表现优异,包括Kvasir-SEG、CVC-ClinicDB、CVC-ColonDB、ETIS和CVC-300。在这些数据集中,CFE-PVTSeg分别达到了93.0%、93.8%、82.5%、80.4%和90.3%的平均Dice系数,显著优于现有方法。特别是在Kvasir-SEG数据集上,其表现比ADSNet高出1.0%,在CVC-ColonDB和ETIS数据集上分别比ADSNet高出1.0%和0.6%,在CVC-300数据集上则比Polyp-PVT高出0.3%。这些结果充分验证了CFE-PVTSeg在处理息肉分割任务中的优越性。
在相关工作中,研究团队回顾了传统手动息肉检测的局限性以及计算机辅助检测系统的发展历程。早期的息肉分割方法主要依赖于低级特征,如纹理和几何特征,或者使用超像素聚类技术。然而,由于息肉与周围黏膜组织在形态上高度相似,这些方法在实际应用中常常面临挑战。近年来,随着深度学习技术的进步,基于CNN和Transformer的方法在息肉分割任务中得到了广泛应用。尽管CNN方法在提取局部特征方面表现出色,但在建模长距离上下文依赖关系方面存在不足,限制了其在处理复杂形状和多尺度病变时的效果。相比之下,Transformer方法在捕捉全局上下文信息方面具有更强的能力,但往往在细化局部结构细节方面表现不佳,并且计算成本较高。因此,现有方法在分割精度和跨中心泛化能力方面仍有待提升。
在方法论部分,研究团队首先概述了CFE-PVTSeg的整体架构,随后详细介绍了编码器和解码器的设计。编码器部分的创新在于其跨域特征增强模块,该模块通过动态整合由离散小波变换提取的频率域纹理特征与由PVT提取的空域语义特征,实现了多尺度特征的层次化增强。这一设计不仅提升了模型对息肉边缘的感知能力,还增强了其对不同尺度息肉的适应性。在解码器部分,MS-FUE模块的引入进一步优化了特征传播过程,通过不确定性图对上采样后的特征进行自适应加权和细化处理,从而有效抑制噪声和不确定成分,提高分割结果的可靠性。
为了验证CFE-PVTSeg的有效性,研究团队在五个具有挑战性的公开数据集上进行了广泛的实验。这些数据集涵盖了不同中心、不同采集条件和不同息肉形态的医学图像,为模型的泛化能力和鲁棒性提供了充分的测试环境。实验结果表明,CFE-PVTSeg在所有数据集上均优于当前最先进的方法,显示出其在息肉分割任务中的显著优势。此外,消融实验进一步验证了编码器和解码器设计的有效性,特别是在抑制特征噪声和提升息肉形态适应性方面。这些实验不仅证明了CFE-PVTSeg的优越性能,也为未来在其他医学图像分析任务中的应用提供了基础。
研究团队还讨论了CFE-PVTSeg的潜在应用方向。未来的工作计划包括探索该模型在其他医学图像分析任务中的适用性,如视网膜血管分割和肿瘤边界界定。这些任务同样需要精确的边界表示和对纹理的敏感性,因此CFE-PVTSeg的设计理念具有广泛的适用前景。此外,研究团队还意图将该模型扩展到更一般的计算机视觉任务,如边缘检测和显著目标检测。通过调整频率域的先验知识以适应特定任务的特征,CFE-PVTSeg有望在更广泛的图像处理领域发挥作用。
在数据集部分,研究团队采用了与Polyp-PVT相同的实验设置,使用了五个具有挑战性的公开数据集:Kvasir-SEG、CVC-ClinicDB、CVC-ColonDB、ETIS和CVC-300。这些数据集涵盖了不同类型的息肉图像,包括不同中心的数据和不同采集条件下的图像,为模型的泛化能力提供了全面的评估。研究团队在这些数据集上评估了模型的学习能力,并进一步测试了其在三个未见过的多中心数据集上的泛化性能。实验结果表明,CFE-PVTSeg在不同中心的数据上依然表现出色,显示出其在实际应用中的强大适应性。
在结论部分,研究团队总结了CFE-PVTSeg的主要创新点和研究成果。该模型通过融合空域和频率域特征,实现了多维特征增强,从而提升了息肉分割的准确性和鲁棒性。编码器部分的跨域融合机制和解码器部分的不确定性增强模块是该模型的两个核心创新点。通过这些设计,CFE-PVTSeg不仅能够有效处理息肉的形态复杂性和边界模糊问题,还能够在不同中心的数据上保持较高的分割性能。这些结果表明,CFE-PVTSeg在息肉分割任务中具有重要的应用价值,并为未来的医学图像分析研究提供了新的思路和方法。
研究团队还提到,未来的工作将进一步探索CFE-PVTSeg在其他医学图像分析任务中的应用潜力。例如,在视网膜血管分割和肿瘤边界界定等任务中,精确的边界表示和对纹理的敏感性同样是关键因素。因此,CFE-PVTSeg的设计理念和方法可以被借鉴和改进,以适应这些任务的需求。此外,研究团队还计划将该模型扩展到更一般的计算机视觉任务,如边缘检测和显著目标检测。通过调整频率域的先验知识,使其更符合特定任务的特征,CFE-PVTSeg有望在更广泛的图像处理领域发挥重要作用。
最后,研究团队提供了作者贡献声明和利益冲突声明。所有作者都参与了该研究的各个阶段,包括方法设计、实验验证、数据分析和论文撰写。研究团队还声明,所有作者均未涉及任何可能影响研究结果的利益冲突。这些声明进一步强调了研究的透明性和客观性,为该模型的进一步应用和推广提供了可信度。总体而言,CFE-PVTSeg的提出不仅解决了息肉分割中的关键问题,也为医学图像分析领域提供了新的研究方向和技术手段。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号