CSA-Net：一种轻量级的通道分割注意力网络，结合残差特征融合技术用于视网膜血管分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：CSA-Net: A lightweight channel split attention network with residual feature fusion for retinal vessel segmentation

【字体：大中小】 时间：2026年02月15日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　视网膜血管分割方法研究提出CSA-Net模型，通过通道分割注意力机制捕获全局上下文，结合残差特征融合减少信息损失，并采用自适应卷积核降低计算复杂度。在DRIVE、CHASEDB1等5个数据集上验证，参数量仅239万，准确率（ACC）达0.9830，AUC达0.9948，优于现有方法。

作者：姜敏山、刘宏凯、黄帅、毛志辉、朱永飞、张学典

上海科学技术大学光电与计算机工程学院现代光学系统重点实验室，中国上海200093

摘要

自动视网膜血管分割对于临床评估和治疗干预至关重要。从眼底图像中提取全局和局部特征仍然是当前方法面临的一个重大挑战。为了解决这个问题，我们提出了一种轻量级的通道分割注意力网络（CSA-Net），该网络结合了通道分割注意力和残差特征融合，能够有效地捕捉全局上下文信息和精细的血管细节。在我们的模型中，首先提出了一个通道分割注意力（CSA）模块，以促进多尺度特征聚合和全局信息的获取。然后，我们引入了一个残差特征融合（RFF）模块，在多尺度融合过程中通过结合残差来减少信息损失并增强特征图。此外，我们采用了具有不同核大小的自适应反卷积编码器来实现轻量化设计，以提高计算效率。我们使用五个公开可用的眼底数据集（DRIVE、CHASEDB1、STARE、HRF、LES-AV）来测试我们的模型。实验结果表明，CSA-Net取得了先进的性能，准确率（ACC）高达0.9830，AUC值为0.9948，且参数数量仅为2.39百万个。消融研究验证了各个模块的有效性。所提出的CSA-Net在分割精度和模型复杂性之间取得了良好的平衡。在多个视网膜血管分割基准测试中，它以更少的参数数量实现了具有竞争力的或更好的性能。

引言

视网膜血管分割是临床医生在筛查和诊断疾病（包括青光眼、糖尿病和高血压）时的关键工具[1]、[2]。眼科医生的手动标注通常对于准确的血管分割是必要的，但这一过程耗时且劳动强度大，并且需要专业知识来识别异常。此外，如果不能及时诊断，这些疾病的延迟治疗可能会导致严重的负面后果。因此，快速准确的视网膜血管分割是眼科疾病诊断的核心技术。

医学图像分割方法受到了广泛的研究关注。传统血管分割方法（例如阈值分割[3]、匹配滤波器算法[4]和血管跟踪[5]）对局部属性的关注限制了它们的适用性。尽管这些方法能够产生不错的结果，但在血管分割的准确性方面仍然存在不足，需要进一步改进。

为了应对传统方法的局限性，研究集中在卷积神经网络（CNN）上，以增强特征提取能力。计算能力的提升使得CNN能够在各种领域得到应用[6]、[7]、[8]。特别是U-Net[9]采用了U形编码器-解码器框架，通过跳跃连接将编码器层的特征与解码器特征结合起来。这有效地防止了由于池化操作导致的多尺度细节丢失。然而，U-Net依赖卷积滤波器进行特征提取，限制了其高效模拟长距离依赖关系的能力。由于缺乏上下文信息，血管的连续性可能会被破坏，从而导致不准确的语义解释。为了克服U-Net的局限性，人们引入了各种优化模块。Wang等人[10]提出了一个金字塔级联模块来聚合局部和全局信息，从而缓解了分割结果不连续的问题。Lian等人[11]设计了一个全局和局部增强的残差U-Net（GLUE），在不同阶段细化分割结果。GLUE使用对比度限制的自适应直方图均衡化进行视网膜预处理，以捕捉局部和全局血管信息。这些方法代表了U-Net结构中的显著改进。U-Net中卷积的局限性限制了长距离关系的建立。此外，卷积核在所有位置的权重分配均匀，意味着所有像素具有相似的长距离依赖关系。因此，自适应捕获语义关系至关重要。Transformer[12]通过利用自注意力来建模任意两个位置之间的交互，克服了这一挑战，而不考虑它们的空间距离。2020年引入的Vision Transformer（ViT）标志着计算机视觉的一个重要里程碑。后续研究证明了其在医学图像分割中的有效性，其结果可与传统CNN相媲美[13]。Huang等人[14]采用了关系变换器网络，利用自注意力和交叉注意力机制来捕捉眼底图像中不同区域之间的复杂依赖关系。Transformer在捕获长距离特征依赖关系方面是有效的，但由于缺乏空间归纳偏见，它无法有效提取空间位置信息。此外，Transformer架构通常需要大规模的实验数据和预训练权重。因此，对于数据有限和结构复杂的视网膜眼底图像分析来说，纯Transformer架构可能并不适用。除了模型层面的改进外，还探索了视网膜图像质量作为促进血管分析的补充方向。Alwazzan等人提出了一种基于颜色通道处理的视网膜图像增强方法，其中结合了CLAHE和Wiener滤波来提高照明均匀性并突出眼底图像中的血管细节[15]。尽管这些增强技术可以改善局部对比度和视觉质量，但它们主要在图像层面操作，并没有设计为明确捕捉全局上下文信息或保持准确分割所需的血管连续性。

然而，最近的研究（例如CoVi-Net[16]、GL-DLA-dsHFF[17]、FSE-Net[18]）表明，在保持全局上下文建模和精细血管保留之间取得平衡仍然具有挑战性。基于Transformer的方法增强了全局感知，但往往牺牲了空间细节，而基于CNN的模型能够捕捉局部结构，但在处理长距离依赖关系时遇到困难。这些局限性激发了开发一种轻量级混合机制的需求，该机制能够同时建模多尺度的全局-局部特征，同时保留精细的血管细节。

基于上述考虑，我们提出了一种名为CSA-Net（Channel Split Attention Network）的新型通道分割注意力网络。这种混合卷积神经网络和视觉Transformer网络结构由三个核心模块组成。首先，通道分割注意力（CSA）模块促进多尺度特征聚合和全局信息的获取。残差特征融合（RFF）模块旨在通过在多尺度融合过程中结合残差来减少信息损失并增强特征图。通过额外的特征融合模块，进一步细化了血管分割结果。通过对五个公开可用数据集的广泛评估，我们的方法展示了卓越的性能。总结来说，本文强调了三个主要贡献：

所提出的CSA模块从输入图像中提取并聚合多尺度特征信息。它还使用自注意力机制校准输入特征图中的通道依赖关系，有效地增强或抑制某些特征（例如毛细血管、大血管和背景）。CSA模块还使网络能够自适应地关注不同宽度的血管，并增强血管的连续性。
为了弥合编码器和解码器之间的语义差距，我们提出了RFF模块。RFF模块包括增强后的特征图和残差特征图。增强后的特征图强调全局细节，而残差图突出局部细节和差异。通过加法和减法结合特征图，这种方法在解码阶段更有效地保留了血管细节。
我们引入了一种轻量级设计，以提高计算效率而不影响性能。该设计使用具有不同核大小的自适应反卷积编码器来捕获多尺度特征，同时降低计算成本。此外，还采用了跨通道自注意力来保持全局上下文信息，提高了模型的分割精度，同时减少了计算开销。

部分摘录

基于CNN的方法

在最近几十年中，大量研究集中在视网膜血管分割上。由于U-Net的出色性能，出现了许多基于U-Net的网络结构变体。Zhuang等人[19]引入了LadderNet，它具有多个编码器-解码器对。与U-Net相比，LadderNet具有更广泛的信息传播路径。LadderNet中的跳跃连接有助于在多个编码器-解码器对之间建立连接。

方法论

CSA-Net采用了U形编码器-解码器框架，包括三个核心模块：CSA、RFF和特征融合模块。CSA模块结合了多尺度信息聚合和自注意力机制，使网络能够关注不同宽度的血管并提高它们的连续性。RFF模块在解码过程中解决了编码器和解码器之间的语义差异，同时保留了血管细节。最后，特征融合模块细化了血管

数据集

我们在五个公开可用的眼底数据集上进行了实验：DRIVE [36]、CHASEDB1 [37]、STARE [38]、HRF [39] 和 LES-AV [40]。特别是STARE数据集没有预先建立的训练-测试划分。为此，我们通过10折交叉验证将数据分为10组，每组包含一对图像。这五个数据集的相关数据和样本分别显示在表1和图4中。

对于DRIVE、CHASEDB1和STARE数据集，真实血管

实验分析

在本节中，我们首先在视网膜眼底数据集上评估CSA-Net，并与七种现有方法进行比较。随后，我们对眼底数据集进行了广泛的消融研究和视觉分析。此外，我们还检查了CSA-Net在病理图像血管分割中的稳定性。

自适应卷积核实验比较

在3.1.1节中，我们在网络的不同阶段考虑了不同大小的卷积核，以有效捕捉不同层次的特征，同时减少计算负担。具体来说，我们在DRIVE上使用了不同核大小的组合进行了实验。如表10所示，当卷积核大小设置为[9]、[7]、[5]时，模型获得了最高的评估指标值。

模型复杂性

我们评估了所提出模型的复杂性

结论

我们的研究提出了一种用于视网膜血管分割的新CSA-Net。该模型包括三个核心创新模块。CSA模块执行多尺度特征提取和融合，并通过自注意力机制调整通道依赖关系。RFF模块在解码阶段有效保留了血管细节。在五个公开可用的眼底数据集上的实验结果表明，我们的CSA-Net表现出出色的性能，并且相比现有方法具有显著优势。

CRediT作者贡献声明

姜敏山：撰写 – 审稿与编辑、项目管理、方法论、资金获取、概念化。刘宏凯：撰写 – 原始草稿、软件、方法论。黄帅：可视化、形式分析。毛志辉：撰写 – 审稿与编辑、数据管理。朱永飞：监督、调查。张学典：验证、项目管理。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争财务利益或个人关系。

致谢

本工作得到了中国国家自然科学基金（61905144）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言