DB-SegNet:基于多尺度注意力变换器和生物启发优化的青光眼早期诊断与视盘视杯精准分割框架

《Scientific Reports》:DB-SegNet: optimized framework for glaucoma detection and optic structure segmentation from retinal fundus images

【字体: 时间:2025年11月15日 来源:Scientific Reports 3.9

编辑推荐:

  为解决青光眼早期诊断中视盘(OD)和视杯(OC)分割因血管遮挡、图像质量差异和结构模糊导致的准确性不足问题,研究人员开发了DB-SegNet框架。该研究整合扩张空洞上下文模块(DACM)和双向特征校准单元(BFCU)增强SegNet架构,采用苦鱼优化(BFO)进行特征选择,蜜獾优化(HBO)进行超参数调优,并在多尺度注意力变换器(MSAT)支持下实现长程依赖建模。在Drishti-GS1、RIM-ONE和ORIGA-Light数据集上取得OD分割Dice系数99.2%、OC分割98.3%以及分类准确率最高99.1%的优异性能,为大规模青光眼筛查提供了可靠工具。

  
青光眼作为全球不可逆性失明的主要病因之一,其早期诊断面临重大挑战。这种疾病源于视神经头(ONH)的进行性退化,早期阶段往往没有明显症状,导致许多患者直到视力严重丧失后才被确诊。临床研究表明,通过药物或手术治疗进行早期干预可以显著延缓疾病进展并降低失明风险。视网膜眼底成像在青光眼筛查中扮演着关键角色,其中视盘(OD)和视杯(OC)的精确划分至关重要。从这些结构中计算出的杯盘比(CDR)是公认的生物标志物,可以帮助临床医生量化青光眼的变化。然而,自动化OD/OC分割仍然面临解剖变异、光照不均、血管重叠和图像对比度低等挑战,这凸显了对强大且可解释的计算机辅助诊断工具的迫切需求。
深度学习(DL)的出现彻底改变了医学图像分析领域,在分割和分类任务中都取得了显著进展。早期的卷积神经网络(CNN)框架(如U-Net和SegNet)在OD/OC分割方面取得了令人鼓舞的结果,但在异构成像条件下显示出有限的鲁棒性。最近,基于Transformer的架构被引入,利用全局注意力机制捕捉视网膜结构之间更广泛的上下文关系。例如,多任务方法旨在通过利用解剖相关性联合分割OD/OC并识别中央凹,从而提高诊断准确性。同样,结合卷积主干和Transformer模块的混合编码器-解码器模型被开发用于处理复杂场景,包括高度近视和视盘周围萎缩。尽管有这些改进,当前的系统仍然面临持续的临床和技术障碍。
为了应对这些挑战,本研究引入了DB-SegNet,一个先进的诊断框架,旨在提高分割准确性和青光眼检测能力。该架构在SegNet的基础上构建,加入了扩张空洞上下文模块(DACM)以捕捉多尺度上下文特征,以及双向特征校准单元(BFCU)以优化边界细节。通过苦鱼优化(BFO)算法实现特征空间优化,同时采用多尺度注意力变换器(MSAT)建模长程空间依赖性。此外,应用蜜獾优化(HBO)进行超参数微调,确保稳定和精确的收敛。在三个广泛使用的基准数据集(Drishti-GS1、RIM-ONE和ORIGA-Light)上的评估证明了该框架的有效性,实现了视盘分割Dice系数99.2%和视杯分割98.3%,以及分类准确率98.7%(RIM-ONE)和99.1%(ORIGA-Light)。这些结果突出了DB-SegNet在克服现有技术局限性方面的鲁棒性,并强调了其作为临床可靠工具用于大规模青光眼筛查和早期干预计划的潜力。
研究人员为开展这项研究采用了多项关键技术方法:使用中值滤波和基于偏微分方程(PDE)的修复技术进行图像预处理以去除噪声和血管干扰;构建以SegNet为骨干的DB-SegNet分割框架,集成DACM模块和BFCU单元;应用BFO算法进行特征选择以减少冗余;采用MSAT模块捕捉长程依赖关系;利用HBO算法优化超参数以确保收敛稳定性;并在Drishti-GS1、RIM-ONE和ORIGA-light等公共视网膜数据集上进行训练和验证。
预处理技术
采用高效的预处理方法为视网膜眼底图像中OD和OC结构的稳定分割提供支持。预处理流程标准化输入数据,抑制噪声,增强细节并消除视觉障碍。自动调整大小为512×512像素确保空间尺度归一化,强度归一化通过z-score方法实现稳定学习。数据增强策略包括随机翻转、旋转、缩放和亮度对比度变化,以增强模型泛化能力。中值模糊用于抑制高频噪声而不损坏边缘信息。形态学顶帽变换增强细微结构(如血管)的可见性。基于Navier-Stokes PDE的血管修复方法以视觉连贯的方式去除重叠血管,保持OD/OC边界的完整性。
提出的DB-SegNet架构
DB-SegNet是一个深度卷积神经网络,设计用于从视网膜眼底图像中准确分割OD和OC。它扩展了传统的SegNet骨干,后者以其在像素级分类任务中的编码器-解码器架构而闻名。为了增强模型学习复杂上下文特征和重新校准空间语义的能力,集成了两个复杂模块:编码器中的扩张空洞上下文模块(DACM)和解码器中的双向特征校准单元(BFCU)。这些增强特别针对解剖结构变异、血管干扰和OD/OC区域之间低对比度等常见于临床视网膜成像中的问题。
SegNet骨干包含一系列编码器块和一组对称的解码器块。编码器有两个连续的卷积层(核大小为3×3),随后是批归一化和ReLU激活,有助于特征分布标准化和非线性添加。每个卷积块后跟一个步长为2的最大池化层,降低空间分辨率但增加特征表示的深度。重要的是,池化索引被保存以供解码器使用。解码器然后反转这个过程。它使用保存的池化索引通过最大反池化执行非线性上采样,再次跟随两个卷积层(含批归一化和ReLU激活)。这种镜像架构有效重建精细空间细节,对准确定位OD和OC边界至关重要。
DACM嵌入每个编码器阶段中,以丰富特征的上下文表示而不影响输入的空间分辨率。传统卷积网络中,增加感受野通常涉及池化或步长卷积,可能导致边界级信息丢失。DACM通过应用多个并行扩张卷积(也称为空洞卷积)与递增的扩张率来解决这一限制。这些卷积允许感受野指数级扩展同时保持分辨率,这对捕捉不同大小的结构(如血管、视盘边界和杯轮廓)至关重要。每个输入特征图I经受多个扩张卷积,产生捕捉不同尺度信息的特征图。这些并行分支的输出然后被拼接,并通过一个5×5卷积(步长2)进行空间整合和可控下采样。最终特征图通过层归一化稳定,确保训练期间梯度流一致和数值稳定。
BFCU专注于通过选择性强调语义有意义的信息来细化解码器特征。在分割任务中,特别是医学成像中,解码器重建详细空间地图而不引入语义漂移至关重要。BFCU通过应用双向一维卷积来重新校准水平和垂直方向的特征。方向操作提取跨两个维度的空间依赖性。结果特征通过一个轻量级细化块(包含两个连续的1×1卷积层、批归一化和ReLU激活)传递。重新校准后的地图然后与原始解码器输入使用元素求和融合。这种残差连接保留原始空间结构同时整合通过方向卷积学到的语义增强。通过在每个解码器阶段应用BFCU,DB-SegNet确保重建的分割地图既空间连贯又语义精确,这对临床实践中可靠的OD和OC检测至关重要。
使用苦鱼优化(BFO)进行特征选择
在DB-SegNet的深度特征提取过程之后,编码器提供高维特征表示,捕捉视网膜眼底图像中的复杂空间和语义模式。然而,并非所有特征对下游决策过程同样有用。有些可能包含冗余或无关信息,这可能降低模型泛化能力或在直接馈入注意力模块或分类器时增加计算复杂性。为了缓解这一点,添加了一个特征选择步骤,其中使用了一种受生物启发的元启发式算法,称为苦鱼优化(BFO)算法。该算法直接应用于编码器的最终输出,允许网络仅保留判别性和显著的深度特征,从而增强可解释性和准确性,并减少资源开销。
BFO的动机来自苦鱼的特殊繁殖行为,它们将卵产在淡水贻贝内。雌性苦鱼选择具有完美近岸条件的贻贝来发育卵,雄性仔细守护和管理放置过程。这种生物过程说明了生物驱动的探索(探测合适的贻贝)和利用(在熟悉的安全区域内优化)之间的平衡,因此是高维空间中最佳特征子集发现的自然隐喻。
编码器衍生的特征集表示为FE = {f1, f2, ..., fn},其中每个fi ∈ Rd代表一个维度为d的深度特征向量,FE指的是从最终编码器层提取的完整特征池。这些特征作为输入转发给BFO算法进行选择。这里的目的是导出一个最优子集F* ? FE,该子集保留语义强度同时最小化冗余。
在BFO算法中,每个潜在特征子集被建模为一个二进制编码的解向量Sj = {sj1, sj2, ..., sjn},其中sji ∈ {0,1}指示第i个特征是否包含(1)或排除(0)在第j个候选解中。这些解的种群基于一个评估准确性和特征紧凑性的适应度函数迭代进化。用于评估候选解Sj质量的适应度函数为F(Sj) = α·Acc(Sj) - β·(‖Sj1/n),其中Acc(Sj)是使用子集Sj进行预测时的分类准确性,‖Sj1是解向量的L1范数(有效计数所选特征的数量),n是编码器输出中的特征总数,α和β是控制性能和简洁性之间权衡的超参数。这个适应度函数确保高度准确且紧凑的特征子集获得更高分数,从而引导优化器朝向理想的解。
BFO的进化过程围绕苦鱼观察到的三种主要行为组织:探索、利用和替换。探索时,潜在解随机测试搜索空间,模拟雌鱼探测各种贻贝宿主。利用时,通过更精确地修改其二进制表示来细化良好前景, paralleling 在良好环境条件下优化卵放置。候选解定期替换以帮助保持解多样性并避免过早收敛。
控制从一次迭代到下一次迭代转换的移动方程定义为Sj(t+1) = Sj(t) ⊕ Flip(γ),其中⊕表示按位异或操作,Flip(γ)以学习率γ确定的概率执行随机位反转。这个公式使BFO能够动态探索新的特征组合,同时保留来自高适应度解的知识。一旦优化达到收敛标准或超过预设迭代次数,提取性能最好的解S。最终选择的特征子集F定义为F* = {fi ∈ FE | si* = 1},其中si是最优解向量S中的对应二进制决策。过滤后的集合F*然后转发到管道下一阶段的多尺度注意力变换器。这里,重点仅放在高价值表示上,减少噪声并提高计算效率。在这个框架中,BFO充当受生物启发的过滤机制,确保注意力模型仅接收上下文重要的特征。这种选择性转发特征导致决策置信度提高和OD和OC分割的鲁棒性增强。通过消除贡献最小或冗余的特征,BFO不仅增强模型焦点,还支持对未见临床数据的更好泛化。
多尺度注意力变换器(MSAT)
为了增强分类可靠性并捕捉复杂的特征级依赖性,部署了一个多尺度注意力变换器(MSAT)作为DB-SegNet架构内的核心组件。在苦鱼优化(BFO)处理的特征选择阶段之后,保留的深度特征虽然 refined,仍然缺乏一个机制来理解空间遥远区域在语义上如何相互关联。这在视网膜眼底分析领域尤其关键,因为病理和健康区域(如OD变形或OC扩大)之间的视觉区分可能在上下文上细微但诊断上显著。MSAT通过建模全局上下文和多尺度注意力来解决这个问题,实现跨遥远空间位置的准确特征关联。
MSAT的核心是自注意力机制,它允许每个特征位置评估其与所有其他位置的相关性,创建一个密集的关系图。让所选特征的输入矩阵表示为F ∈ Rt×d,其中t是空间标记的数量,d是嵌入维度。这个矩阵被转换成三个学习的投影:查询Qf = F WQ,键Kf = F WK,和值Vf = F WV,其中每个WQ, WK, WV ∈ Rd×dk是权重矩阵,dk是用于注意力计算的子空间维度。
每个注意力头内的核心计算使用Attention(Qf, Kf, Vf) = softmax((Qf KfT)/√dk) Vf进行。这里,Qf KfT产生查询和键对之间的相似性分数矩阵,缩放因子√dk确保训练期间的数值稳定性。Softmax函数将这些分数归一化为概率分布,为携带更强语义相关性的空间标记分配更高权重。与Vf的加权和为每个标记位置产生上下文更新的特征。
为了丰富模型从输入的不同方面学习的能力,MSAT使用多头注意力,其中每个头关注不同的表示子空间。形式上,如果存在h个注意力头,输出由MultiHead(F) = Concat(head1, ..., headh) WO给出,其中headi = Attention(Qi, Ki, Vi)且WO ∈ Rh dk×d是一个用于将头集成到统一表示中的投影矩阵。这里,每个头有自己的一组可学习投影(WiQ, WiK, WiV),允许它专注于独特的交互模式。
为了确保有效学习,在每个子块周围应用了残差连接和层归一化。在多头注意力输出与输入F结合后,它通过一个归一化层传递:Z = LayerNorm(F + MultiHead(F))。随后是一个位置前馈网络(FFN),由两个线性层(其间有ReLU激活)组成,并再次通过归一化完成:H = LayerNorm(Z + FFN(Z))。这些残差路径促进平滑梯度传播,并帮助保留来自较早层的学习关系。
使MSAT独特有效的是其多尺度策略。而不是操作于单一分辨率输入,该模块馈送来自不同空间层次的特征,例如早期、中级和深度编码器表示。这允许它同时捕捉细粒度空间细节(微血管变化)和高级结构变化(OD-OC比率扭曲)。传统CNN分类器可能由于固定核大小而忽略这种空间语义相互作用,MSAT通过注意力加权动态学习如何优先化和融合多尺度信号。
一旦多尺度注意力输出被合并,它们通过平均池化或标记凝聚聚合成一个全局表示向量,然后传递到一个全连接分类头。这个分类头基于精炼和上下文感知的特征嵌入预测疾病类别(正常或青光眼)。这里,MSAT模块不仅作为更深理解区域间依赖性的导管,而且作为变换器驱动的特征校准器,最大化诊断置信度。浅注意力层或简单MLP分类器可能缺乏泛化,MSAT使模型能够处理各种真实世界成像条件,包括可变照明、遮挡和细微畸形,具有鲁棒性和可解释性。
使用蜜獾优化(HBO)进行优化
为了进一步优化DB-SegNet框架的性能并在训练期间实现有效收敛,提出了蜜獾优化(HBO)算法作为一种智能的基于元启发式的优化方法。这种受生物启发的算法灵感来自蜜獾在野外的觅食和狩猎本性,它们以在寻找埋藏地下的猎物时的坚韧、敏捷和自适应策略而闻名。蜜獾的生存策略包括两个一般阶段:挖掘,这是一种扫描大区域的探索活动,和觅食,这是利用先前猎物位置知识的利用。HBO数学模拟这种双行为活动以遍历高维解空间并防止局部最小值中的过早收敛,如图7所示。
在DB-SegNet管道中,HBO被应用于优化关键训练超参数,例如学习率、丢弃比率和注意力头数量,以及微调直接影响收敛轮廓的损失函数参数。优化目标是最小化总体成本函数L,它可能以加权形式结合分割损失(Dice损失)和分类损失(交叉熵):Ltotal = λ1·Lseg + λ2·Lcls,其中λ1和λ2是平衡分割和分类目标影响的标量系数。HBO操作于此复合损失以确定驱动更快和更稳定收敛跨验证周期的超参数配置。
HBO算法中每个候选解的位置代表一个超参数值向量,表示为Pi = [pi1, pi2, ..., pin],其中Pi是第i个代理(蜜獾)的解向量,每个pij是一个连续或离散参数,取决于任务(注意力深度)。HBO中的搜索过程在挖掘和觅食模式之间交替。在挖掘阶段,獾使用正弦波运动模型探索更广泛的区域:Pit+1 = Pit + A·sin(2πf t + φ),其中Pit是当前位置,A表示振幅(探索范围),f是移动频率,φ是随机相移。这种基于波的振荡确保跨参数空间的探索多样性。相比之下,觅食阶段引导代理朝向最知名的解P,使用自适应吸引力调整其路径:Pit+1 = Pit + r·β·(P- Pit),其中r ∈ [0,1]是一个保持随机性的标量,β控制朝向全局最佳吸引的强度。这里,项(P* - Pit)代表将每个代理更接近最优性的方向向量。这个更新规则通过强化性能更好的候选来促进利用,同时保持探索和收敛之间的平衡。
自适应切换行为区分了HBO——代理在环境响应和收敛反馈(例如验证损失停滞或突然改进)下自主在觅食和挖掘之间切换。这种自适应机制防止过早收敛并增强从不良区域的逃脱。代理的适应度根据其在一个训练周期后的 resultant 损失值测量:Fitness(Pi) = -Ltotal(Pi)。这里,最大化适应度等价于最小化损失,使HBO自然兼容无梯度训练场景,其中直接导数信息可能不易获得。
通过将HBO纳入DB-SegNet的优化阶段,模型表现出改进的鲁棒性,特别是对抗噪声梯度或不平衡数据分布。其高收敛效率进一步加速训练,同时保持学习参数在各种数据集上一致。当传统网格搜索或随机搜索面临可扩展性和效率挑战时,HBO以轻量计算开销智能探索超参数空间。最终,HBO成为一个鲁棒的优化骨干,完美适应DB-SegNet的自适应和模块化性质。在这种情况下,其受生物启发的行为支持模型泛化,并批判性增强分类可靠性和分割保真度在视网膜图像分析中。
实验成果与讨论
实验成果与讨论部分通过广泛评估严格验证了建议模型,包括分割、分类和比较性能在各种公共视网膜图像数据集上。该部分描述了使用的数据集,展示了训练行为,并研究了损失函数和优化方法的效率。它包括定性和定量评估,如混淆矩阵、ROC曲线和交叉验证实验,以测量模型的泛化能力、鲁棒性和诊断一致性。此外,还包括消融研究和跨数据集实验以量化每个架构改进的单独和组合贡献,验证模型在临床适用性和跨各种条件的可扩展性。
提出的框架按照标准计量经济学原则设计,以确保稳定性和泛化性。通过仔细划分数据集保持数据独立性,防止训练和测试样本之间的任何重叠。为了保持同方差性和稳定收敛,应用权重衰减正则化与余弦退火结合用于学习率调整。通过在使用丢弃在注意力模块内减轻过拟合,而总体模型复杂性使用通过BFO和HBO优化的超参数调节。诊断验证涉及跟踪训练和验证损失曲线,评估跨多个数据集的分割和分类指标,并进行跨数据集评估以确认鲁棒性和对不同领域的适应性。
实验配置
实验环境在高端计算平台上运行,配备NVIDIA RTX 3090 GPU(24 GB专用内存),增强由AMD Ryzen 9 5950X处理器和128 GB RAM,以提供有效的并行处理和快速训练周期。软件框架使用Python 3.10开发,深度学习操作使用PyTorch 2.0.1和CUDA 11.8进行GPU加速。其他库,如OpenCV、NumPy和Matplotlib,用于数据预处理、可视化和性能监控。所有实验在Linux环境(Ubuntu 22.04)中执行,以确保评估管道全程的稳定性、兼容性和可重复性。
数据集详情
Drishti-GS1包含101张临床专家注释的视网膜眼底图像,涵盖视盘和视杯区域。数据库分为50个训练实例和51个测试实例,分为两类:非青光眼和青光眼病例。它提供高分辨率标记输出用于分割场景,是测试青光眼分析中详细边界检测的理想选择。
RIM-ONE数据集包含169张眼底图像,分为正常和青光眼类。它提供像素级视盘和视杯区域注释,从而支持分割和分类。数据集具有平衡的图像分布,并且由于其清晰和结构化标签,通常用于基准测试青光眼检测系统。
ORIGA-Light数据集由650张视网膜图像组成,每张图像根据临床诊断标记为正常或青光眼。提供了视盘和视杯的地面真实分割掩模,实现详细的结构分析。其更大的大小和视神经头外观的变异性使其成为训练青光眼筛查深度学习模型的有用资源。
分割结果:Drishti-GS1数据集
优化算法之间的训练准确性和损失比较表明,Ranger(RAdam和LookAhead的组合)在训练过程中提供更好的稳定性和收敛性。有趣的是,其准确性曲线始终具有接近1.0的值,波动很小,并且性能优于传统优化器如Adam和SGD。虽然RAdam在性能上也具有竞争力,但LookAhead在Ranger中的加入通过使其以更低的方差更快地实现高准确性增加了另一层泛化能力。
在评估的配置中,Dice和Focal Loss与参数α=0.25和γ=2的组合在整个训练过程中表现出 consistently superior 分割性能。这个 formulation 显示Dice分数更快上升并稳定在更高峰值,表明预测和实际区域之间的改进重叠。其他变体,如单独Dice或不同的α-γ组合,落后于收敛速度和最终准确性。放大部分清楚显示,即使在早期训练阶段,红色曲线也领先于其他曲线,表明这个特定的损失配置增强了模型对具有挑战性样本的关注,同时保持结构分割准确性。这个行为验证了其在密集医学图像分割中学习鲁棒表示的有效性。
杯盘比(CDR)是广泛使用的青光眼评估临床生物标志物。它定义为视杯垂直直径与视盘垂直直径的比率,代表杯在盘区域内的相对大小:CDR = Vertical Cup Diameter / Vertical Disc Diameter。较高的CDR值与青光眼视神经损伤相关,因为视杯随着视网膜神经节细胞的丧失逐渐扩大。在临床实践中,CDR大于0.6或显著的眼间不对称被认为是青光眼的潜在指标。因此,视盘和视杯的准确分割对于可靠的CDR估计和随后的疾病诊断至关重要。
视杯分割的性能比较突出了 proposed model 实现的明显进步,它确保了Dice分数98.3%,IoU 96.8%,δCDR仅3.8%,和准确性97.9%。这些值反映了对早期方法的显著增益,包括AGCN(94.6%, 93.9%, 4.3%, and 97.3%)和EE-UNet(94.2%, 89.1%, 4.7%, and 97.0%)。即使 well-established 架构,如M-Net和U-Net也落后,Dice分数分别为93.7%和93.1%。这些跨所有评估指标的一致改进强调了 proposed method 在分割视杯方面的精确性和泛化能力,使其更适用于临床诊断应用。
提出的方法在视杯分割方面显著优于其他模型,实现了最高的Dice分数98.3%,表明预测和地面真实区域之间的 superior overlap 准确性。其IoU分数96.8%进一步反映了与竞争对手相比增强的边界精度和分割质量。提出的模型还实现了最低的δCDR 3.8%,表明更准确估计临床重要的杯盘比。此外,它实现了最高的准确性97.9%,确认了其在跨多样视网膜图像正确分类视杯区域的鲁棒性和可靠性。这些结果在各种病例中一致,表明模型对图像质量和视神经头形态学变化的鲁棒性。高一致性 between predicted and ground truth contours 突出了框架在临床级视网膜分割任务中的可靠性。
视盘分割的结果 clearly established the superiority of the proposed model,它实现了Dice分数99.2%,IoU 97.3%,δCDR 5.2%,和分类准确性98.2%。这些值显著优于所有其他方法,包括EE-UNet(90.1%, 91.4%, 6.4%, and 92.4%)和AGCN(88.0%, 88.9%, 6.0%, and 92.9%),两者都显示出有希望的结果。传统模型如U-Net和M-Net表现出较低的Dice分数,分别为85.9%和86.7%,以及较大的δCDR值。这个跨所有指标的 substantial margin of improvement 强化了 proposed model 在精确分割视盘方面的强度,同时确保跨数据集的稳定泛化。
边界可视化比较清楚地表明,提出的模型实现了与地面真实轮廓的 superior alignment 对于视杯和视盘区域,在不同病例中保持高结构一致性。竞争方法,如U-Net、M-Net和SegNet,表现出明显的偏差,特别是在杯边缘周围,而提出的方法以最小偏差紧密遵循解剖边缘。提出的轮廓与真实地面 truth 的接近性,与其他模型的更宽和不规则边界相比,强调了其在各种视网膜条件下分割小和 large optic structures 的精确性和适应性。
分类结果:RIM ONE数据集
RIM-ONE数据集上的分类结果揭示了提出的模型的强大判别能力,准确识别了
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号