基于涂鸦标注的自适应上下文挖掘网络SCNet:弱监督伪装目标检测新范式

【字体: 时间:2025年06月25日 来源:Computer Vision and Image Understanding 4.3

编辑推荐:

  为解决像素级标注成本高昂的问题,中科院团队提出基于涂鸦标注的弱监督伪装目标检测(WSCOD)框架SCNet。该研究通过改进PVTv2编码器、设计邻居交互解码器(NID)和优化模块(RM),结合自适应局部伪装一致性(ALCC)损失,在CAMO/COD10K/NC4K数据集上超越6种弱监督方法,部分指标甚至优于全监督模型,为医学息肉分割等下游任务提供新思路。

  

在自然界中,变色龙与枯叶蝶的精妙伪装总能骗过天敌的眼睛,这种生物拟态现象启发了计算机视觉领域的伪装目标检测(COD)研究。传统方法依赖手工特征难以应对复杂场景,而深度学习虽取得突破却受限于昂贵的像素级标注。现有弱监督方法如CRNet存在区域漏检,WS-SAM又因依赖SAM模型预处理而实用性受限。如何平衡标注成本与检测精度,成为制约COD技术发展的关键瓶颈。

中国科学院的研究团队在《Computer Vision and Image Understanding》发表的研究中,提出名为SCNet的创新框架。该工作受人类视觉机制启发:先全局扫视定位可疑区域,再局部聚焦细化边界。技术路线采用两阶段策略:1)使用改进的PVTv2(金字塔视觉Transformer)提取多尺度特征,配合设计的邻居交互解码器(NID)粗定位;2)通过优化模块(RM)进行跨层特征融合与上下文挖掘,结合自适应局部伪装一致性(ALCC)损失增强复杂场景适应性。实验采用CAMO、COD10K和NC4K三大标准数据集验证。

【Full supervised camouflaged object detection】
研究表明现有全监督方法如PFNet通过模拟捕食行为取得进展,但均需密集标注。弱监督方法中,He等提出的CRNet仅能捕捉主体轮廓,而WS-SAM虽视觉效果接近ZoomNet但预处理复杂。这凸显了开发端到端弱监督模型的必要性。

【Overview of network architecture】
SCNet架构核心包含:1)PVTv2骨干网络高效捕获全局上下文;2)NID模块通过邻域交互聚合低层纹理与高层语义特征;3)RM模块通过扩张卷积扩大感受野,实现多尺度信息交互;4)ALCC损失根据区域复杂度动态调整注意力范围,显著提升结构完整性预测。

【Experimental setup】
在COD10K数据集上,SCNet的Sα指标达0.791,超越WS-SAM 4.2%。特别在医疗息肉分割任务中,Dice系数提升9.8%,证实其跨领域泛化能力。计算效率分析显示,SCNet参数量仅72.3M,推理速度达23FPS,满足实时需求。

【Conclusion】
该研究开创性地将人类视觉认知机制转化为可计算的深度学习框架,其创新点体现在:1)首次实现纯涂鸦标注的端到端COD训练;2)提出的ALCC损失突破局部一致性约束的固定尺度局限;3)在保持轻量化的同时,NC4K测试集Fβw指标达0.672,为工业质检等应用提供新范式。未来可探索与视觉注意力机制的更深层次结合。

这项工作的里程碑意义在于:首次证明弱监督方法可逼近全监督性能,为样本标注成本敏感的医疗影像分析(如早期肿瘤筛查)开辟了新途径。正如研究者所述:"SCNet的成功印证了仿生思想与自适应学习的结合,是突破视觉感知边界的有效路径。"

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号