
-
生物通官微
陪你抓住生命科技
跳动的脉搏
深度学习模型在视觉识别任务中对部分物体遮挡的鲁棒性研究
【字体: 大 中 小 】 时间:2025年08月01日 来源:Pattern Recognition 7.6
编辑推荐:
这篇综述系统评估了深度学习模型(如CNN、ViT)在物体部分遮挡条件下的识别性能,提出IRUO数据集填补真实遮挡场景的基准空白,并通过人类对比实验揭示ViT模型虽优于CNN但仍低于人类水平,尤其对栅栏/树叶类"扩散遮挡"敏感。研究为遮挡鲁棒性模型设计提供重要方向(数据增强/架构优化)。
Highlight
遮挡鲁棒性方法
近期研究提出多种提升模型遮挡鲁棒性的方法:数据增强(如Mixup/CutMix)[7,13,14]、基于部件的建模技术[5,6,11],以及天生抗遮挡的架构设计[3,17]。特别值得注意的是,视觉Transformer(ViT)展现出超越传统卷积神经网络(CNN)的潜力。
背景方法
我们评估了三类前沿视觉模型:卷积模型(如ResNeXt)、Transformer架构(如Swin),以及专为遮挡设计的模型(如CompositionalNet)。所有模型均基于ImageNet-1k预训练权重,并在IRUO数据集上微调。
IRUO数据集
基于遮挡视频实例分割(OVIS)数据集构建的IRUO,包含23类物体8.8万张图像,标注了无遮挡(0)/部分遮挡(1)/严重遮挡(2)三级标签。该数据集首次实现真实遮挡与合成遮挡的对照研究。
人类研究
通过20名受试者对IRUO-HTS子集的分类测试,建立人类基准准确率。实验采用双盲设计,参与者需对包含栅栏/树叶等"扩散遮挡"的图像进行分类。
实验结果
结论
生物通微信公众号
知名企业招聘