基于真实与合成遮挡的视觉识别模型性能评估：IRUO数据集构建与Transformer模型优势验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月31日 来源：Pathology 3

编辑推荐：

　　【编辑推荐】针对深度学习模型在目标遮挡场景下识别性能不足的问题，杜克大学团队构建了首个大规模真实遮挡数据集IRUO（含8.8万张图像），系统评估了CNN、Transformer及专用抗遮挡模型的性能差异。研究发现ViT（Vision Transformer）模型在遮挡条件下显著优于CNN，但仍低于人类水平，且弥散性遮挡（如栅栏/树叶间隙）对CNN影响尤为显著。该研究为计算机视觉领域提供了关键基准数据集和模型选择指导。

在计算机视觉领域，图像识别技术已取得突破性进展，甚至在某些基准测试中超越人类表现。然而当目标物体被部分遮挡时——这种现实场景中司空见惯的现象，却成为深度学习模型的"阿喀琉斯之踵"。栅栏后的行人、树叶间隙的动物、货架间的商品...这些看似简单的识别任务，往往让最先进的算法"看走眼"。更令人担忧的是，现有研究多采用人工合成的遮挡物（如随机色块）进行测试，这种"温室里的考验"能否真实反映模型在复杂现实中的表现？

为破解这一困局，美国杜克大学电气与计算机工程系的Kaleb Kassaw团队开展了一项开创性研究。研究人员从视频实例分割数据集OVIS中精心构建了包含23类物体、8.8万张图像的IRUO（Image Recognition Under Occlusion）基准数据集，首次系统量化了不同类型、不同程度的真实遮挡对视觉识别的影响。该数据集特别标注了三种遮挡状态：无遮挡、部分遮挡（<50%被遮）和严重遮挡（>50%被遮），并创新性地区分了集中式遮挡（如被广告牌遮挡）与弥散性遮挡（透过栅栏孔洞观察）两种模式。

研究采用三大类前沿模型进行对比：传统卷积神经网络（以ResNeXt为代表）、新兴视觉Transformer（如Swin Transformer）以及专用抗遮挡模型（如CompositionalNet）。为建立性能上限基准，团队还设计了严谨的人类对照实验，邀请20名受试者对IRUO数据集的子集进行分类测试。所有模型均基于ImageNet-1k预训练权重进行微调，采用标准交叉熵损失函数和Adam优化器，在4块NVIDIA V100 GPU上完成训练。

关键实验结果显示：

模型性能排序：在所有遮挡条件下，ViT模型（平均准确率68.2%）>现代CNN（62.1%）>早期CNN（54.3%），但最优模型仍比人类低9.8个百分点。
遮挡类型影响：面对弥散性遮挡时，CNN准确率骤降37%，而ViT仅下降21%，人类仅降低15%，揭示CNN对空间连续性异常敏感的特性。
合成遮挡的局限性：使用人工遮挡物测试时，模型性能排序虽保持稳定，但绝对准确率普遍高估12-18%，证实真实遮挡测试的必要性。

在讨论环节，作者指出ViT模型的多头自注意力机制能自适应聚焦未遮挡区域，是其优势的核心所在。而令人意外的是，专门设计的抗遮挡模型（如CompositionalNet）并未显现预期优势，推测可能因其在部件检测阶段引入了额外误差。研究同时发现，当遮挡程度超过70%时，所有模型性能均出现断崖式下跌，此时人类仍能保持约40%的准确率，暗示现有模型在高级语义推理方面存在本质缺陷。

这项发表于《Pathology》的研究具有三重里程碑意义：其一，IRUO数据集填补了真实遮挡测试基准的空白；其二，明确了Transformer架构在复杂视觉场景中的优势地位；其三，揭示了弥散性遮挡这一此前被忽视的关键影响因素。团队已公开全部数据集和代码，为自动驾驶、安防监控等依赖遮挡识别的应用领域提供了宝贵的评估工具和模型选型指南。未来研究可探索结合ViT与神经符号推理的新路径，进一步逼近人类水平的场景理解能力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号