HSF-Net:一种用于息肉分割的混合空间域和频率域变换器网络
《Neurocomputing》:HSF-Net: Hybrid spatial and frequency domain transformer network for polyp segmentation
【字体:
大
中
小
】
时间:2025年11月19日
来源:Neurocomputing 6.5
编辑推荐:
准确分割结直肠息肉对早期诊断至关重要,但现有方法多局限于像素级空间特征学习,忽略频率域信息和跨尺度依赖。本文提出HSF-Net混合模型,包含频率感知特征提取模块(分解高频边界细节与低频全局结构)、分层特征学习模块(融合多尺度特征)和语义桥接注意力模块(弥合深层频率特征与浅层空间细节的语义鸿沟),在Kvasir-SEG等5个数据集上mDice达0.932和0.818,优于13种SOTA方法。
在医学影像领域,结直肠癌(Colorectal Cancer, CRC)作为全球发病率最高的三种癌症之一,给医学界和社会带来了越来越大的挑战。根据《2019年全球疾病负担研究》的数据显示,20-49岁成年人群中,CRC的发病率在过去三十年间显著上升,从每10万人4.2例增加至每10万人6.7例。这一趋势意味着CRC的早期诊断和及时干预变得尤为重要。由于结直肠息肉是CRC的早期临床征兆,其准确检测和及时移除可以显著降低疾病进展的风险。然而,目前最常用的筛查方法——结肠镜检查,其效果高度依赖于内镜医生的经验,这不仅使得过程耗时,还容易受到人为误差的影响。研究指出,约有26.3%的息肉可能在结肠镜检查过程中被遗漏。因此,开发辅助诊断系统,以减少误诊率并减轻临床工作者的负担,成为一项迫切的任务。
息肉分割主要分为传统方法和基于深度学习的方法两大类。传统方法通常依赖于阈值分割等技术,但由于息肉本身具有多样的形态、尺寸和与周围黏膜模糊的边界,这些方法往往难以满足实际需求。相比之下,基于深度学习的方法通过强大的特征提取和空间定位能力,在息肉分割任务中取得了显著进展。例如,全卷积网络(Fully Convolutional Networks, FCN)和U-Net等经典架构已被广泛应用于医学图像分割任务。然而,卷积神经网络(Convolutional Neural Networks, CNNs)固有的局部性限制了其在捕捉全局上下文信息方面的表现,这对于息肉分割至关重要。因此,许多研究者尝试通过引入注意力机制、多尺度特征融合等技术来弥补CNN的不足。例如,一些方法利用金字塔注意力机制进行多尺度特征提取,另一些则通过亮度先验信息增强模型对息肉特征的识别能力。尽管这些改进在一定程度上提升了分割效果,但基于CNN的方法在处理息肉的长距离空间依赖性方面仍然存在局限。
近年来,视觉Transformer(Vision Transformers, ViTs)的出现为图像分割任务带来了新的思路。ViTs将图像视为一系列图像块(patches)的序列,并通过自注意力机制对全局特征进行建模,从而克服了CNN在捕捉长距离依赖方面的不足。然而,ViTs在捕捉细粒度局部细节方面的能力较弱,这使得其在处理息肉等具有复杂边界和模糊结构的医学图像时面临挑战。一些基于Transformer的息肉分割方法虽然在整体结构上表现出色,但在边界细节的提取上仍显不足。例如,Polyp-PVT在分割过程中常将息肉与复杂的高频背景纹理混淆,而RT-Net虽然引入了边界感知模块,但其空间域检测器仍容易受到噪声干扰,导致边界预测不准确。这些局限性表明,单纯依赖空间域特征的模型可能已接近其性能极限,需要引入其他特征维度以进一步提升分割精度。
为了应对上述问题,本文提出了一种新颖的混合空间与频率域Transformer网络(Hybrid Spatial and Frequency Domain Transformer Network, HSF-Net),旨在通过结合空间域和频率域信息,提高息肉分割的准确性。HSF-Net的核心创新体现在三个方面。首先,我们设计了频率感知特征提取(Frequency-aware Feature Extraction, FFE)模块,该模块通过傅里叶变换将空间特征转换为频率域,并对其进行高频和低频成分的分解。高频成分有助于捕捉息肉的边界细节,而低频成分则能够突出息肉的整体结构。通过这种分解,模型可以更有效地分离息肉与背景,尤其是在息肉边缘模糊的情况下。其次,我们引入了层次特征学习(Hierarchical Feature Learning, HFL)模块,该模块通过在编码器的不同阶段对多尺度特征进行聚合,使模型能够动态地调整和整合不同尺度的特征,从而增强对不同形状和尺寸息肉的适应能力。最后,我们提出了语义桥接注意力(Semantic Bridging Attention, SBA)模块,该模块利用HFL或低层编码器特征中的语义先验信息作为指导,通过注意力机制对低层、高分辨率特征进行自适应校准,从而弥合深度频率域表示与浅层空间细节之间的语义鸿沟。
在实验部分,HSF-Net在五个广泛使用的息肉分割基准数据集上进行了验证,包括CVC-ClinicDB、Endoscene、CVC-ColonDB、Kvasir-SEG和ETIS-LaribPolypDB(ETIS)。其中,Kvasir-SEG因其图像分辨率较高且息肉边缘较为模糊而被认为是最具挑战性的数据集。实验结果表明,HSF-Net在Kvasir-SEG数据集上达到了0.932的mDice值,在ETIS数据集上达到了0.818的mDice值,显著优于13种现有的最先进的方法。这些结果不仅验证了HSF-Net在息肉分割任务中的优越性能,也表明了频率域信息在提升分割精度方面的巨大潜力。
HSF-Net的整体架构包括多个关键模块,这些模块共同构成了一个高效的特征提取与融合系统。FFE模块负责将空间特征转换为频率域,并对高频和低频成分进行分离和增强。HFL模块则通过多尺度特征聚合,使模型能够动态调整不同层次的特征表示,从而适应息肉的多样化形态。SBA模块作为连接深层频率域表示与浅层空间细节的关键桥梁,通过注意力机制对低层特征进行校准,减少背景噪声的影响并提升分割结果的语义一致性。此外,本文还设计了相应的损失函数,以确保模型在训练过程中能够有效学习频率域与空间域之间的互补关系。
在数据集方面,本文选取了五个具有代表性的息肉分割数据集,涵盖了不同分辨率、不同拍摄设备以及不同临床场景下的息肉图像。这些数据集通常由专家进行回顾性收集和标注,确保了数据的高质量和标注的准确性。通过在这些数据集上的广泛测试,HSF-Net展示了其在不同数据分布下的泛化能力,进一步验证了其在实际临床应用中的潜力。
尽管HSF-Net在多个基准数据集上表现出色,但该模型仍存在一些局限性。首先,当前研究尚未进行大规模的临床试验,因此模型在不同患者群体、不同成像设备以及真实临床环境中的泛化能力仍需进一步验证。其次,现有的评估主要基于公开数据集,而对私有数据集或多中心数据集的测试仍需加强,以确保模型在实际应用中的鲁棒性。此外,由于频率域信息的处理相对复杂,模型的计算成本和运行效率也可能成为实际部署中的挑战。因此,未来的工作需要在模型的临床适用性、数据集多样性以及计算效率等方面进行进一步优化。
综上所述,HSF-Net通过引入频率域信息,弥补了传统空间域方法在息肉分割中的不足,为结直肠癌的早期诊断和干预提供了新的技术手段。该模型在多个数据集上的实验结果表明,其在提升分割精度和鲁棒性方面具有显著优势。然而,为了实现其在实际临床中的广泛应用,仍需克服一些现存的挑战,包括临床验证、数据集扩展以及计算效率的优化。本文的研究成果不仅为息肉分割任务提供了新的解决方案,也为未来医学影像分析中多模态特征融合的方法提供了重要的参考。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号