HSPF-Net:一种结合CNN和Transformer的混合模型,采用串行-并行融合算法进行皮肤病变分割

《Digital Signal Processing》:HSPF-Net: Hybrid CNN-Transformer with Serial-Parallel Fusion for Skin Lesion Segmentation

【字体: 时间:2026年01月07日 来源:Digital Signal Processing 3

编辑推荐:

  皮肤病变分割的CNN-Transformer混合架构研究。提出HSPF-Net模型,通过多分支并行编码融合CNN与Transformer的局部纹理和全局上下文特征,结合细粒度空间通道注意力门抑制噪声干扰,在ISIC2017/2018和PH2数据集上实现Dice系数和IoU的显著提升。

  
郝芳 | 孙宇 | 张帅 | 谭旭阳 | 李晓辉 | 余晓东
哈尔滨师范大学计算机科学与信息工程学院,中国哈尔滨 150025

摘要

医学成像技术的进步使得皮肤镜图像成为临床诊断中的关键工具。然而,由于边界模糊、与健康组织的对比度低以及毛发和血管的干扰,皮肤病变的分割仍然具有挑战性。为了克服这些挑战,我们提出了HSPF-Net,这是一种新颖的串并行混合网络,它结合了卷积神经网络(CNN)和Transformer架构的优势,以实现精确的病变分割。我们设计了一个多接收域融合模块(MRFF),通过计算来自多个接收域的特征的注意力来执行双分支特征融合。此外,还设计了一个细粒度空间通道注意力门(FG-SCAG),用于动态抑制无关信息并增强特征表示。实验表明,HSPF-Net能够处理诸如毛发遮挡、光照噪声和病变形状不规则等问题。在三个公开数据集ISIC2017、ISIC2018和PH2上进行评估后,我们的模型取得了最先进的性能,在Dice系数和IoU方面显著提高了分割准确性。

引言

皮肤癌是一种常见的癌症类型。仅在美国,预计2025年将有大约107,240例原位皮肤黑色素瘤新病例[1]。皮肤癌可以分为两大类:黑色素瘤和非黑色素瘤。尽管黑色素瘤仅占所有皮肤癌病例的约1%,但它是最致命的类型。早期发现的黑色素瘤可以治愈,五年生存率超过99%[2],因此早期检测黑色素瘤至关重要。
随着人工智能技术的进步和深入研究,医学图像分割经历了技术突破,从传统方法转向深度学习方法。深度学习实现了端到端的学习,与传统方法(例如区域生长[3]、阈值分割[4]、[5]、聚类方法[6])相比,深度学习能够自动提取特征。尽管深度学习方法需要大型训练数据集,但它们在黑色素瘤诊断方面取得了更好的结果。因此,使用深度学习进行自动化病变分割的发展具有重要意义。然而,这项任务面临着各种技术挑战,例如皮肤镜图像中毛发遮挡或凝胶气泡引起的噪声干扰、病变形态的复杂性以及颜色和纹理的异质性。
卷积神经网络(CNN)以其自动特征提取能力而闻名,已成为图像分类任务的主要方法。乔纳森·朗(Jonathan Long)等人提出的全卷积网络(FCN)[7]是第一个成功将CNN应用于图像分割的模型。为了解决连续卷积导致的图像分辨率降低问题,FCN使用了上采样层来恢复空间分辨率,生成了能够进行密集单个像素级预测的像素级概率图。随后,奥拉夫·罗内伯格(Olaf Ronneberger)等人提出了U-Net[8]架构,该架构具有对称的编码器-解码器结构,并通过跳过连接将编码器特征图与其对应的解码器特征图连接起来。在U-Net框架的基础上,开发了许多变体,如U-Net++[9]、Attention U-Net[10]和DenseUNet[11]。赵等人提出了PSPNet[12],该模型采用了金字塔池化模块来提取和融合多分辨率的上下文线索,提高了模型对不同尺度物体的分割能力。尽管基于CNN的架构在局部特征提取方面表现有效,但它们通常难以捕捉长距离依赖性和全局上下文关系——这对于复杂的分割任务至关重要。
为了解决建模全局交互的挑战,出现了许多基于Transformer的分割模型[13],例如Swin-Unet[14]、Unetr[15]和nnFormer[16]。Transformer架构的有效性主要源于其多头自注意力(MSA)机制,该机制在捕捉长距离依赖性方面表现出色。然而,Transformer在局部特征提取方面的能力有限,而这通常是CNN的优势所在。这种互补关系激发了对混合CNN-Transformer架构的极大兴趣。陈等人提出的TransUNet[17]是这一领域的开创性工作,它首次成功地将Transformer与U-Net集成用于医学图像分割。在该架构中,Transformer将CNN派生的特征图编码为上下文序列。其他在分割任务中表现良好的网络还包括TransBTS[18]、TransFuse[19]和FAT-Net[20]。然而,鉴于皮肤病变分割的特定挑战——包括不规则的边界、异质的纹理和伪影——这些架构如何利用Transformer的全局建模能力和CNN的局部特征提取能力仍有很大的优化空间。关键考虑因素包括在保持精确边界划分的同时,确保国际和局部特征的有效融合。
本文提出了HSPF-Net,这是一种用于皮肤病变分割的新型混合CNN-Transformer架构。该编码器采用双分支结构,创新地将CNN和Transformer模块以串并行方式结合,全面处理局部和全局图像特征。在解码器中,CNN和Transformer依次提取的基础特征被用来构建全局交互特征图作为解码器输入,然后结合双分支融合特征进行分割预测。为了进一步提高分割准确性,引入了细粒度空间通道控制门,以选择性强调相关病变特征,同时抑制非病变区域的噪声。
我们的主要贡献如下:
(1) 我们提出了一种用于皮肤病变分割的新型串并行混合架构。所提出的编码设计有效地结合了局部特征提取和全局上下文建模,实现了协同特征增强,并显著提高了分割性能。
(2) 我们设计了多接收域融合(MRFF)模块,该模块采用多接收域注意力机制动态计算特征融合权重,实现了CNN-Transformer和Transformer分支特征的优化集成。
(3) 我们提出了细粒度空间通道注意力门(FG-SCAG)模块,该模块结合了细粒度通道注意力和空间注意力机制,以选择性抑制诊断无关区域的特征激活,同时保留关键的病理特征。
(4) 在三个皮肤镜图像数据集(ISIC 2017、ISIC 2018和PH2)上的全面评估验证了我们方法的优越性,特别是在处理病变边界不明确和毛发遮挡等诊断挑战性场景时。

章节摘录

基于CNN的方法

目前,基于CNN的方法被广泛用于医学图像分割。基于CNN的全卷积网络(FCN)是最早应用于此任务的方法。随后,U-Net通过其编码器-解码器设计和跳过连接,有效地结合了高级语义特征和低级空间细节,取得了卓越的性能。进一步的改进带来了U-Net++,它引入了密集嵌套的跳过连接

网络架构

我们提出了HSPF-Net,这是一种具有双分支特征提取的新分割框架,如图1所示。该网络采用双分支编码器,结合CNN和Transformer架构,同时捕获皮肤镜图像的局部纹理细节和全局上下文特征。为了有效利用这些互补的特征表示,我们设计了多接收域融合模块来整合来自双分支编码器的多级特征

数据集

本研究的方法在三个广泛采用的皮肤病变分割公开数据集上进行了严格评估。国际皮肤成像合作组织(ISIC)提供了2017年和2018年的挑战数据集,而PH2数据集来自葡萄牙马托辛霍斯(Matosinhos)Pedro Hispano医院皮肤科的临床收集。这些互补的存储库代表了皮肤镜图像分析的标准测试平台,各自的数据组成如下

局限性和未来工作

本研究使用了三个公开可用的数据集进行实验验证。该网络在皮肤病变数据集上展示了出色的分割和泛化能力。然而,该网络确实存在某些局限性,在某些情况下可以进行改进,如图6所示。从左到右,三列样本图像分别来自ISIC2017、ISIC2018和PH2数据集。与其他分割网络类似,

结论

在本文中,我们提出了一种基于深度学习的网络HSPF-Net,它结合了CNN和Transformer用于皮肤病变分割。所提出的模型借鉴了U-Net的编码器和解码器结构,结合CNN和Transformer的并行和串行特征融合,以实现病变区域的准确分割。同时,我们提出了MRFF模块用于融合双分支特征,以及FG-SCAG的控制门模块。MRFF模块利用多个接收域

CRediT作者贡献声明

郝芳:撰写——原始草案、方法论、可视化。孙宇:数据整理。张帅:形式分析。谭旭阳:概念化。李晓辉:监督。余晓东:撰写——审阅与编辑、项目管理。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文所述的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号