
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于融合特征对比学习与监督正则化的弱监督语义分割方法研究
【字体: 大 中 小 】 时间:2025年07月31日 来源:Journal of Volcanology and Geothermal Research 2.3
编辑推荐:
为解决弱监督语义分割(WSSS)中类激活图(CAM)仅能识别显著区域的问题,湖南女子学院信息科学与工程学院团队提出融合特征对比学习(FFCL)和监督正则化(SR)策略,通过ViT中间层特征引导最终CAM生成,在PASCAL VOC 2012和MS COCO 2014数据集上实现显著提升。
在计算机视觉领域,语义分割任务长期受制于像素级标注的高成本问题。传统弱监督语义分割(WSSS)方法依赖卷积神经网络(CNN)生成的类激活图(CAM),但受限于局部感知特性,往往只能激活物体最显著区域,导致分割结果支离破碎。随着视觉Transformer(ViT)的出现,其全局注意力机制为解决这一问题带来曙光,然而直接将ViT应用于WSSS任务时,目标区域区分能力仍不理想。
湖南女子学院信息科学与工程学院Weizheng Wang团队在《Journal of Volcanology and Geothermal Research》发表的研究中,创新性地提出双管齐下的解决方案。研究人员首先设计融合特征对比学习(FFCL)方法,通过加权辅助融合(WAF)和空间注意力机制(SAM)处理ViT中间层特征,与最终层特征进行对比学习;同时开发监督正则化(SR)策略,利用中间层CAM_aux特征校正最终CAM。关键技术包括多尺度图像输入策略、ViT特征层级联机制,以及在PASCAL VOC 2012和MS COCO 2014数据集上的交叉验证。
【Methodology】
研究团队以ViT为骨干网络,通过FFCL方法实现特征信息引导:中间层CAM_aux经WAF模块加权融合后,与最终层特征进行空间注意力加权对比,显著提升CAM对物体边缘的识别精度。SR策略则构建辅助监督损失函数,强制最终CAM与中间层特征保持空间一致性。
【Experimental settings】
在包含21类的PASCAL VOC 2012和81类的MS COCO 2014数据集测试表明,该方法在mIoU指标上超越现有WSSS方法。消融实验证实FFCL和SR的协同作用——单独使用FFCL可使CAM覆盖度提升37%,结合SR后进一步优化至52%。
【Conclusion】
该研究突破性地将ViT中间层特征"物尽其用",通过特征对比与正则化双重约束,使CAM激活区域完整性产生质的飞跃。这种端到端框架为医疗影像分析、自动驾驶等需精细分割但标注稀缺的场景提供新思路,其提出的特征层级交互机制对多模态学习也具有启示意义。
生物通微信公众号
知名企业招聘