编辑推荐:
为解决结肠镜图像中息肉大小不一、边界模糊等分割难题,研究人员开展基于 Transformer 的交叉特征多注意力网络(TCFMA-Net)研究。结果显示,该模型在 6 个基准数据集上 Dice 得分优异,显著提升息肉分割准确性与泛化能力,为结直肠癌诊断提供新工具。
结直肠癌(CRC)作为全球第三大常见癌症,其早期发展常始于腺瘤性息肉,若未及时处理,可能需 10-15 年演变为癌症。早期检测和切除息肉对降低 CRC 发病率和死亡率至关重要。临床中,医生需在结肠镜图像中手动识别和勾勒息肉,这一过程依赖专业技能且耗时,同时息肉外观(颜色、大小、纹理)多样、边界与周围黏膜对比度低,导致传统方法易出现分割错误或漏检。因此,开发高效准确的自动化息肉分割算法成为迫切需求。尽管卷积神经网络(CNN)和 Transformer 等深度学习模型在医学图像分割领域取得进展,但现有方法在处理息肉大小形状多变、边界模糊及跨数据集泛化性等方面仍存在局限。
为应对上述挑战,国内研究人员开展了基于 Transformer 的交叉特征多注意力网络(TCFMA-Net)在息肉分割中的研究。该研究成果发表在《Artificial Intelligence in Medicine》,旨在通过创新架构提升息肉分割的准确性和泛化能力,为临床诊断提供更可靠的工具。
研究人员采用的关键技术方法包括:以 Swin Transformer 作为编码器提取多尺度全局上下文信息;构建交叉特征增强网络(CFE-Net),通过多层级 CFE 块融合四层级特征,强化跨尺度特征交互;在解码器内外嵌入多注意力模块(MAMs),优化特征传播并抑制背景干扰。研究使用 CVC-300、CVC-ColonDB、CVC-ClinicDB、BKAI-IGH、PolypGen、Kvasir 共 6 个结肠镜图像数据集,包含图像及对应的真实标注(GT),以 Dice 系数等 5 项指标评估模型性能。
实验结果
在 CVC-ClinicDB、Kvasir 和 BKAI-IGH 数据集上,TCFMA-Net 的 Dice 得分分别为 92.74±0.10(置信区间 CI:91.92, 94.04)、91.46±0.14(CI:91.12, 92.72)和 87.34±0.13(CI:86.19, 88.10),显著优于现有方法,表明其在处理不同特征息肉时的有效性。泛化性测试中,模型在 CVC-300、CVC-ColonDB 和 Polypgen 数据库的 Dice 得分分别为 89.51±0.10(CI:88.67, 89.71)、72.91±0.09(CI:71.39, 74.14)和 65.83±0.22(CI:65.47, 66.52),验证了其跨数据集的鲁棒性。
研究结论与讨论
TCFMA-Net 通过 Swin Transformer 编码器捕获长程依赖,结合 CFE-Net 的跨尺度特征融合和 MAMs 的注意力机制,有效解决了息肉大小变异、边界模糊及泛化性不足的问题。实验结果表明,该模型在多数据集上均表现出优越的分割性能,定量指标显著提升,且能准确勾勒息肉边界,减少误检和漏检。其创新架构为医学图像分割领域提供了新的思路,特别是在处理具有复杂形态和低对比度的病变时展现出潜力。该研究不仅推动了息肉分割技术的发展,也为结直肠癌的早期诊断和临床决策提供了更精准的工具,有望通过自动化分析辅助医生提高诊断效率和准确性,具有重要的临床应用价值和社会意义。