
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多尺度交叉注意力驱动的少样本语义分割框架:精准解决跨图像空间对齐难题
【字体: 大 中 小 】 时间:2025年06月11日 来源:Computer Vision and Image Understanding 4.3
编辑推荐:
本研究针对少样本语义分割(FSS)中因类内差异和类间相似性导致的空间错位问题,创新性提出多尺度交叉注意力网络(MSCA)。通过混合掩码引导的多尺度特征融合策略(MMF)和分层多轴解码架构(MCD),在PASCAL-5i 和COCO-20i 数据集实现SOTA性能,仅1.86M参数即突破跨尺度语义关联瓶颈,为医学影像等数据稀缺场景提供轻量化解决方案。
在计算机视觉领域,语义分割(Semantic Segmentation)作为像素级识别任务的核心,长期依赖海量标注数据。然而医疗影像和自动驾驶等场景中,获取精细标注既昂贵又耗时。传统少样本语义分割(Few-Shot Semantic Segmentation, FSS)面临双重困境:基于原型的方法因过度压缩特征丢失空间细节,而像素级方法又陷入局部差异而忽视整体语义。更棘手的是,类内形态变异(如不同患者的器官形态)与类间视觉相似性(如肿瘤与正常组织的灰度重叠)导致严重的空间错位问题。
针对这一挑战,研究人员开发了多尺度交叉注意力框架(MSCA)。该研究创新性地构建了从局部细节到全局上下文的跨尺度注意力网络,通过两个核心技术突破传统局限:多尺度掩码融合模块(Multi-Scale Mask Fusion Module, MMF)采用可学习的空间权重策略替代传统全局平均池化(GAP),在Block2/3层级提取支持图像的多粒度特征;多尺度交叉解码器(Multi-scale Cross Decoder, MCD)则通过X/Y轴双分支架构实现分层特征聚合,其轴对齐注意力机制能有效校正空间偏移。
关键技术包括:1) 基于预训练骨干网络提取多级特征;2) 混合掩码引导的跨尺度特征交互;3) 分层多轴注意力解码机制。实验采用PASCAL-5i
和COCO-20i
标准数据集验证,其中PASCAL-5i
包含20类增强标注的VOC2012数据,COCO-20i
则基于80类MSCOCO构建更复杂场景。
【Few-shot learning】
研究指出传统FSS方法在元学习框架下易忽略尺度敏感性,而MSCA通过跨尺度交互实现从细粒度纹理到粗粒度结构的自适应匹配。
【Problem description】
在训练集Dtrain
与测试集Dtest
类别严格分离的设置下,模型需通过少量支持样本Fs
完成新类别分割,这对特征泛化提出极高要求。
【Method】
MMF模块创新性地采用1×1卷积生成空间权重,替代非参数化GAP,在多个尺度上保留关键位置信息。MCD解码器则通过并行双路径处理不同分辨率特征,最后通过交叉注意力实现轴向特征校准。
【Datasets and metrics】
在包含复杂背景的COCO-20i
数据集上,MSCA对微小目标和遮挡场景的识别准确率提升显著,验证了多尺度交互的有效性。
【Conclusion】
该研究证实:1) 跨尺度注意力能缓解类内差异导致的空间错位;2) 分层解码架构使模型参数量降至1.86M仍保持高性能;3) 轴对齐注意力对方向敏感型目标(如医疗影像中的血管走向)具有特异性优化作用。这些发现为数据稀缺场景的精准分割提供了新范式,特别是在需要兼顾计算效率的嵌入式医疗设备中有重要应用前景。
研究团队在CRediT贡献声明中明确,Zhihao Ren负责核心算法设计,Shengning Lu完成代码实现,Yong Liang指导整体研究框架。该成果已发表于《Computer Vision and Image Understanding》,其轻量化特性为边缘计算环境下的实时医学影像分析开辟了新途径。
生物通微信公众号
知名企业招聘