深度学习模型在视觉识别任务中对部分物体遮挡的鲁棒性研究

【字体: 时间:2025年08月01日 来源:Pattern Recognition 7.6

编辑推荐:

  这篇综述系统评估了深度学习模型(如CNN、ViT)在物体部分遮挡条件下的识别性能,提出IRUO数据集填补真实遮挡场景的基准空白,并通过人类对比实验揭示ViT模型虽优于CNN但仍低于人类水平,尤其对栅栏/树叶类"扩散遮挡"敏感。研究为遮挡鲁棒性模型设计提供重要方向(数据增强/架构优化)。

  

Highlight
遮挡鲁棒性方法
近期研究提出多种提升模型遮挡鲁棒性的方法:数据增强(如Mixup/CutMix)[7,13,14]、基于部件的建模技术[5,6,11],以及天生抗遮挡的架构设计[3,17]。特别值得注意的是,视觉Transformer(ViT)展现出超越传统卷积神经网络(CNN)的潜力。

背景方法
我们评估了三类前沿视觉模型:卷积模型(如ResNeXt)、Transformer架构(如Swin),以及专为遮挡设计的模型(如CompositionalNet)。所有模型均基于ImageNet-1k预训练权重,并在IRUO数据集上微调。

IRUO数据集
基于遮挡视频实例分割(OVIS)数据集构建的IRUO,包含23类物体8.8万张图像,标注了无遮挡(0)/部分遮挡(1)/严重遮挡(2)三级标签。该数据集首次实现真实遮挡与合成遮挡的对照研究。

人类研究
通过20名受试者对IRUO-HTS子集的分类测试,建立人类基准准确率。实验采用双盲设计,参与者需对包含栅栏/树叶等"扩散遮挡"的图像进行分类。

实验结果

  1. 现代模型在遮挡下的对比:Transformer模型(如Swin)显著优于CNN,但专用模型CompositionalNet在极端遮挡下表现最佳。
  2. 遮挡鲁棒性差距:所有模型在50%遮挡时准确率下降35%,而人类仅下降18%,尤其在扩散遮挡场景差异最大。
  3. 合成遮挡的替代性:合成数据能反映70%真实遮挡的模型排序,但会高估CNN性能约12%。

结论

  1. 模型对比:ViT类模型展现最强泛化能力,但专用架构在特定场景仍不可替代。
  2. 鲁棒性瓶颈:模型对"信息破碎化"敏感,提示未来需开发类人脑的全局推理机制。
  3. 数据替代性:合成数据可用于初步筛选,但最终评估必须包含真实遮挡场景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号