DBFRNet:一种基于金字塔视觉变换器的双分支特征细化网络,用于息肉分割
《Biomedical Signal Processing and Control》:DBFRNet: A dual-branch feature refinement network based on Pyramid Vision Transformer for polyp segmentation
【字体:
大
中
小
】
时间:2025年11月07日
来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
针对结直肠癌筛查中多形性息肉分割算法的高计算复杂性和泛化能力不足问题,提出DBFRNet模型。基于PVTv2编码器,通过双分支特征精修模块、多尺度注意力聚合模块和动态采样上采样模块优化特征表示,降低参数量至24.78M,计算成本9.98 GFLOPs,同时保持SOTA的分割性能。
在医学影像分析领域,结直肠癌(Colorectal Cancer, CRC)的早期筛查和诊断是降低其发病率和死亡率的关键环节。结直肠癌包括结肠癌和直肠癌,是全球范围内最常见的癌症之一,且在2024年的全球癌症统计数据中,其发病率位列第三,死亡率居第二 [1]。预计到2040年,结直肠癌每年将新增约320万例病例,并导致约160万人死亡 [2]。这使得结直肠癌的诊断和治疗成为全球医疗系统面临的重要挑战。在临床实践中,结直肠腺瘤(Colorectal Adenomatous Polyps, CAP)被认为是结直肠癌的癌前病变,因此,对这些息肉的早期识别和分割具有重要意义。结肠镜检查作为一种有效的诊断手段,可以对息肉进行精确定位和可视化,为医生提供及时的治疗干预机会。然而,息肉在内镜图像中常常呈现出高度伪装的特性,颜色和形态存在显著的个体差异,且与周围黏膜组织的对比度较低,使得其准确识别和分割变得困难。此外,由于检查环境的影响,黏膜组织容易出现镜面反射和运动模糊,进一步增加了息肉检测的复杂性。因此,开发一种高效且准确的息肉分割方法,不仅能够减轻医生的工作负担,还能提升结直肠癌的诊断效率和治疗效果。
传统的息肉分割方法主要依赖于手动提取的低级特征,如纹理和尺寸 [4]。这些方法虽然在一定程度上提高了分割的自动化水平,但其性能仍然受限于特征的表示能力,难以全面捕捉息肉复杂的形态和多样化的成像特征。随着计算机视觉技术的快速发展,特别是卷积神经网络(Convolutional Neural Networks, CNNs)的广泛应用,越来越多的研究开始探索基于神经网络的息肉分割方法。例如,Akbari等人 [5] 提出了一种基于全卷积网络(Fully Convolutional Networks, FCNs)的息肉分割模型,其性能显著优于传统的特征提取方法。Ronneberger等人 [6] 引入了经典的U-Net架构,验证了编码器-解码器结构在医学图像分割中的有效性。U-Net独特的U型设计不仅提升了图像的恢复能力,还展现了良好的适应性 [7],[8],[9],[10],[11]。此后,许多专门针对息肉分割的网络模型相继被提出,如SFA [12]、PraNet [13] 和 SANet [14],这些方法在不同数据集上均取得了良好的分割效果。近年来,随着视觉Transformer(Vision Transformer, ViT)在下游计算机视觉任务中的广泛应用,越来越多的研究开始关注其在息肉分割中的应用潜力。例如,Polyp-PVT模型 [16] 采用金字塔视觉Transformer(Pyramid Vision Transformer, PVT)作为其主干网络,通过高分辨率特征编码提升了特征表示的丰富性。同时,基于Transformer的编码器因其全局感受野的特性,能够更有效地建模图像中的长距离依赖关系。相比传统的卷积神经网络,基于Transformer的模型在息肉分割任务中展现出更强的长距离像素关系捕捉能力,从而提升了分割的准确性。这一优势在处理息肉复杂的形态和边界时尤为明显。
尽管在息肉分割的自动化研究方面取得了显著进展,但将其应用于临床仍面临两大挑战:高计算复杂性和有限的泛化能力。目前大多数方法依赖于复杂的解码器结构和多级深度监督机制,这在训练和推理过程中显著增加了计算开销。此外,许多方法直接使用编码器提取的初始特征,而未充分考虑息肉特征的多样性和复杂性,导致模型的泛化能力受限。为了解决这些问题,本文提出了一种基于PVTv2编码器的双分支特征细化网络(Dual-Branch Feature Refinement Network, DBFRNet)。该网络在设计过程中充分考虑了息肉成像的固有挑战以及现有方法的局限性。不同于传统的逐层上采样融合方法,DBFRNet将多尺度的息肉特征细化为两个独立的分支,分别关注空间特征和颜色特征,并在两个维度上进行特征融合,从而增强模型的表示能力和鲁棒性。本文的主要贡献可以归纳为以下几点:
首先,我们提出了一种基于PVTv2编码器的双分支特征细化网络(DBFRNet)。通过引入双分支特征细化(Dual-Branch Feature Refinement, DBFR)模块,我们将初始的息肉特征分为两个特定分支:空间特征和颜色特征。这一设计不仅增强了关键特征的表示能力,还有效抑制了无关噪声,从而提升了模型的鲁棒性和泛化能力。
其次,我们引入了多尺度注意力聚合(Multi-Scale Attention Aggregation, MSAA)模块和双分支动态采样(Dual-Branch Dynamic Sampling, DBDS)模块。MSAA模块能够高效地将不同尺度的息肉特征进行聚合,同时保持较低的参数复杂度。DBDS模块则采用动态上采样策略,在解码过程中减少特征损失,从而进一步提升分割的准确性。
第三,我们构建了一个简洁且高效的网络架构。DBFRNet仅包含24.78M个参数,是所有基于PVTv2方法中参数最少的模型之一,其计算成本仅为9.98 GFLOPs,使其成为所有比较方法中最具计算效率的模型之一。这一高效的架构不仅降低了模型的计算负担,还提升了其在实际应用中的部署潜力。
第四,DBFRNet在多个息肉分割基准数据集上均取得了最优的分割性能。与现有最先进的方法相比,DBFRNet在EndoScene [20]、ETIS-LaribPolypDB [21] 和 CVC-ColonDB [22] 数据集上均实现了最佳的分割效果,充分展示了其出色的泛化能力。此外,在Kvasir-SEG [23] 和 CVC-ClinicDB [24] 数据集上,DBFRNet的分割性能也位居第二,进一步证明了其在不同数据集上的适应性和有效性。
为了直观展示DBFRNet与其他先进方法在Kvasir-SEG数据集上的性能对比,如图2所示,我们从Dice分数 [25] 和计算成本两个维度进行了比较。结果显示,DBFRNet在保持较低计算成本的同时,实现了次优的分割性能,进一步凸显了其在计算效率和分割精度之间的良好平衡。在所有比较方法中,DBFRNet的计算成本最低,充分体现了其轻量级和高效性的特点。
在整体架构方面,如图3所示,DBFRNet由四个核心模块组成。首先是基于PVTv2的编码器模块,用于提取多尺度的息肉特征表示。随后是双分支特征细化(DBFR)模块,该模块通过其双分支结构对特征进行细化处理,从而实现对复杂息肉特征的更精确提取。接下来是多尺度注意力聚合(MSAA)模块,该模块旨在对不同尺度的细化特征进行有效聚合,以提升模型的整体性能。最后是双分支动态采样(DBDS)模块,该模块通过动态上采样策略,减少特征在解码过程中的损失,进一步增强分割的准确性。
在实验设置方面,我们详细描述了实验的准备过程,包括数据集的选择与划分、评估指标的定义以及所选的对比模型。为了确保实验的全面性和有效性,我们采用了多个公开的息肉分割数据集,如EndoScene、ETIS-LaribPolypDB、CVC-ColonDB、Kvasir-SEG和CVC-ClinicDB。这些数据集涵盖了不同成像条件和息肉形态,为模型的泛化能力提供了良好的测试环境。评估指标主要包括Dice系数、交并比(IoU)和平均精度(mAP),这些指标能够全面衡量模型在分割任务中的表现。此外,我们选择了多个当前最先进的息肉分割模型作为对比对象,包括基于CNN的方法和基于Transformer的方法,以确保实验结果的客观性和可比性。
实验结果表明,DBFRNet在多个数据集上均取得了优异的分割性能。在EndoScene、ETIS-LaribPolypDB和CVC-ColonDB数据集上,DBFRNet的分割效果优于其他方法,展现出强大的泛化能力。而在Kvasir-SEG和CVC-ClinicDB数据集上,DBFRNet的性能也处于前列,进一步验证了其在不同成像条件下的适应性。这些结果不仅证明了DBFRNet在分割精度上的优势,也表明其在计算效率方面的卓越表现。通过优化网络结构和模块设计,DBFRNet在保持高效的同时,实现了较高的分割质量,为息肉分割的临床应用提供了有力的支持。
在实验过程中,我们还对模型的鲁棒性进行了评估。考虑到息肉在内镜图像中的高度伪装性,以及不同成像条件下可能存在的噪声和干扰,我们测试了DBFRNet在不同光照条件、不同相机参数和不同息肉形态下的表现。结果表明,DBFRNet在各种条件下均能保持较高的分割精度,显示出较强的鲁棒性。此外,我们还对模型的泛化能力进行了验证,通过在未见过的数据集上进行测试,发现DBFRNet能够有效适应新的数据分布,从而进一步提升了其在实际应用中的可靠性。
在实验结果的分析中,我们还发现DBFRNet在处理息肉的复杂形态和边界时表现出色。许多现有的分割方法在处理息肉的边缘细节时存在一定的局限性,而DBFRNet通过双分支结构和动态采样策略,能够更精确地捕捉息肉的边界信息,从而提升分割的准确性。这一特性在临床实践中尤为重要,因为息肉的边界特征对于疾病的早期诊断和治疗决策具有重要意义。
为了进一步验证DBFRNet的性能,我们还进行了消融实验。通过移除不同的模块,我们分析了各个模块对模型性能的具体贡献。结果表明,DBFR模块在提升模型的鲁棒性和泛化能力方面起到了关键作用,而MSAA和DBDS模块则在特征聚合和特征恢复方面提供了显著的性能提升。这些实验结果不仅验证了DBFRNet的有效性,也为未来的研究提供了有价值的参考。
在实际应用中,DBFRNet的高效性和准确性使其具有广泛的应用前景。由于其计算成本较低,DBFRNet可以在资源受限的环境中部署,如移动设备和嵌入式系统,从而实现息肉分割的实时处理。此外,其良好的泛化能力使得DBFRNet能够适应不同类型的内镜图像,为临床医生提供更加可靠的分割结果。通过与现有方法的对比,DBFRNet不仅在性能上表现出色,还在计算效率方面具有明显优势,为息肉分割的自动化和智能化提供了新的解决方案。
综上所述,本文提出的DBFRNet在息肉分割任务中展现出了卓越的性能和效率。通过引入双分支特征细化模块、多尺度注意力聚合模块和双分支动态采样模块,DBFRNet有效解决了现有方法在计算复杂性和泛化能力方面的不足。实验结果表明,DBFRNet在多个基准数据集上均取得了最佳或次优的分割效果,充分验证了其在不同成像条件下的适应性和可靠性。此外,其轻量级的架构使得DBFRNet在实际应用中具有较高的部署潜力,为结直肠癌的早期筛查和诊断提供了强有力的技术支持。未来,随着医学影像数据的不断积累和模型的进一步优化,DBFRNet有望在临床实践中发挥更大的作用,为提高结直肠癌的诊断效率和准确性做出贡献。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号