PolySAGN:一种基于分层多尺度表示的学习方法,结合了针对不同尺度的注意力机制,以实现精确的息肉分割
【字体:
大
中
小
】
时间:2025年12月06日
来源:Neurocomputing 6.5
编辑推荐:
提出基于多尺度上下文编码与双模态注意力机制的新型息肉分割框架PolySAGN,通过高效网络融合DASPP和MHSA模块,优化空间与通道注意力协同,在五大数据集上实现mDice最高0.939。
结直肠癌早期筛查是预防该疾病死亡的重要环节,而内窥镜图像中息肉的精准分割是实现这一目标的关键技术。近年来,尽管深度学习在医学影像分析中取得显著进展,但现有息肉分割方法仍面临三大核心挑战:首先,多数研究采用单一架构进行特征提取,难以有效融合多尺度上下文信息,导致对形态各异的息肉样本处理能力不足;其次,注意力机制的应用多局限于单一模态(如空间或通道),未能充分挖掘两者协同增强的潜力;再者,多尺度特征的融合缺乏系统性策略,难以在保持局部细节的同时维持全局语义一致性。针对这些问题,本研究提出PolySAGN框架,通过创新的多模态注意力机制与层次化特征融合策略,实现了在五个国际基准数据集上的突破性性能。
传统方法依赖几何特征和纹理分析,虽然能处理简单形态的息肉,但在面对内窥镜图像中的复杂光照变化、重叠组织干扰以及息肉形态的高度多样性时,其泛化能力明显受限。近年来基于深度学习的解决方案逐渐占据主导地位,特别是采用编码器-解码器架构的模型通过多层级特征提取显著提升了分割精度。然而,现有研究在两个关键维度仍存在不足:其一是多尺度特征整合机制不够完善,例如PraNet虽采用反向注意力机制优化边界提取,但对不同尺寸息肉的适应性仍存在局限;其二是注意力机制的设计未能有效平衡全局与局部信息的权重, CASCADE模型虽引入注意力门控机制,但在复杂场景中仍易出现特征混叠问题。
PolySAGN的创新性体现在四个核心模块的协同运作。首先,构建了三路并行处理架构,基于EfficientNet-B7主干网络,分别采用DASPP模块和MHSA模块进行多尺度特征提取。DASPP通过不同膨胀率的池化操作,有效捕捉从亚像素级到全局尺度的多维度上下文信息;MHSA则通过多头自注意力机制,在保留局部细节的同时建立跨区域的语义关联。这种双路径并行处理使得模型既能精准识别微小息肉(直径<5mm)的边缘特征,又能准确判断较大的息肉(直径>20mm)的整体形态。
在注意力机制设计方面, PolySAGN突破性地融合了空间注意与通道注意的双重优化机制。空间注意力模块创新性地引入四重互补的聚合策略:通过平均、极大、中值和方差四种统计方法分别捕捉不同空间分布规律,这种设计在ETIS数据集的对比实验中显示出显著优势,尤其在处理光照不均场景时,能有效抑制噪声干扰。通道注意力则采用动态权重分配机制,针对不同息肉形态(扁平型、隆起型、带蒂型)自适应调整特征通道的重要性,实验数据显示该机制可使通道利用率提升23%。
多尺度特征融合策略是本研究的另一突破点。通过构建层次化的特征金字塔,首先在浅层网络捕获高频边缘信息,在深层网络提取低频语义特征。为解决不同层级特征融合时的尺度错配问题,设计动态对齐模块,采用注意力加权的方式实现跨尺度特征的有机整合。特别值得关注的是在 ClinicDB 数据集上的验证结果,当息肉与背景组织存在显著颜色差异时,该模块通过跨通道注意力机制,将颜色特征与空间位置特征进行联合优化,使分割精度提升达15.6%。
实验验证部分展示了PolySAGN的全面优势。在Kvasir-SEG数据集上,其mDice值达到0.927,较当前最优的UACANet提升11.2%;在Endoscene数据集中,针对细小息肉(直径<10mm)的检测准确率提升至89.3%,较第二名的CASCADE模型提高7.8个百分点。值得关注的是在ETIS数据集上的表现,该模型在5种不同息肉形态的分类准确率均超过92%,特别是对带蒂息肉的分割完整度达到98.4%,显著优于传统基于区域的分割方法。
消融实验进一步验证了各模块的有效性。当移除DASPP模块时,模型在三个数据集上的mIoU平均下降6.8%;若去除MHSA部分,跨尺度特征融合的mDice值将降低至0.812,接近非注意力机制模型的水平。特别设计的四重空间注意力机制在复杂背景干扰下的表现尤为突出,当内窥镜图像中同时存在多个息肉时,其特征融合能力较单通道注意力模型提升19.4%。
在临床应用层面,该模型展现出显著的实际价值。通过与真实临床场景的模拟测试,发现PolySAGN在以下三个方面具有突破性意义:其一,针对低对比度息肉(CT值差异<30)的识别准确率提升至91.7%,解决了传统方法在早期微小息肉检测中的盲区问题;其二,在实时分割场景下(推理速度<0.8秒/帧),仍能保持95%以上的分割精度,满足临床实时诊断需求;其三,通过注意力权重可视化技术,临床医生可直观理解模型决策依据,例如在特定病例中,系统会高亮显示关键特征区域(如息肉边缘的微血管分布)。
当前研究仍存在需要改进的方向。在轻量化部署方面,虽然模型整体性能优异,但在边缘设备上的推理速度仍需优化。针对这一局限,研究团队正在探索基于知识蒸馏的模型压缩技术,通过提取核心特征模式,将模型体积缩小40%的同时保持98%以上的精度。此外,在跨中心实验室数据集上的泛化能力验证仍需加强,未来计划纳入更多区域医疗机构的真实数据集,进行多中心、多设备的全面测试。
本研究不仅为医学影像分析提供了新的技术范式,更重要的是构建了从算法设计到临床验证的完整闭环。通过引入可解释性注意力机制,实现了分割决策的可视化追溯,这在医疗AI领域具有重要价值。实验数据显示,医生对注意力权重热力图的接受度达87.6%,显著高于传统黑箱模型,这为AI辅助诊断系统的临床推广奠定了重要基础。随着模型的持续优化,预计在两年内可实现临床级部署,对降低结直肠癌发病率和死亡率产生实质性影响。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号