基于相机信息诱导视觉Transformer的无监督行人重识别方法研究

【字体: 时间:2025年06月26日 来源:Image and Vision Computing 4.2

编辑推荐:

  为解决无监督行人重识别(ReID)中因跨相机差异导致的特征偏差和伪标签噪声问题,南京大学信息科学与技术学院团队提出了一种融合相机信息的视觉Transformer(CII-ViT)模型。该研究通过相机信息嵌入(CIE)和相机矩阵(CM)优化策略,显著提升了跨相机场景下的特征判别力与聚类精度,在四大基准数据集上验证了其优越性,为无监督ReID提供了新范式。

  

在智能安防和公共安全管理领域,行人重识别(Person Re-identification, ReID)技术扮演着关键角色。这项技术的核心目标是从不同摄像头拍摄的非重叠场景中,快速准确地匹配同一行人的图像。尽管基于深度学习的监督式ReID方法已取得显著进展,但其依赖大量人工标注数据的特性,导致在真实场景中面临严重的领域适应性问题。更棘手的是,不同摄像头间的视角差异、光照变化等因素会引入系统性偏差,使得无监督ReID模型的准确率大幅下降。

传统解决方案主要依赖卷积神经网络(CNN),但池化和卷积操作会丢失细粒度特征,而现有无监督方法又普遍忽视相机差异对聚类结果的影响。针对这一双重挑战,南京大学信息科学与技术学院的研究团队创新性地将视觉Transformer(ViT)引入无监督ReID领域,并开发出相机信息诱导的CII-ViT模型。这项发表于《Image and Vision Computing》的研究,通过深度融合相机信息与Transformer架构,成功突破了跨相机场景下的特征表示瓶颈。

研究团队采用三项核心技术:首先设计相机信息嵌入(CIE)模块,将相机参数编码至ViT的图像块嵌入和位置嵌入中;其次开发相机矩阵(CM)优化方法,在DBSCAN聚类时校正跨相机距离矩阵;最后改进ViT的滑动窗口策略,保留图像局部结构信息。实验采用Market-1501等四个主流数据集,通过对比UDA和USL两类基线模型验证效果。

相机信息嵌入的有效性
通过消融实验证实,CIE模块使ViT提取的特征具有相机不变性,在Market-1501数据集上使mAP提升12.7%。结合实例批归一化(IBN)的多头自注意力机制,能更好捕捉行人服饰的细粒度特征。

聚类优化策略分析
提出的CM方法通过构建相机相关矩阵,有效降低跨相机伪标签噪声。在DukeMTMC-reID数据集上,伪标签准确率提高9.3%,显著优于传统Infomap聚类。

架构创新验证
采用重叠像素的滑动窗口ViT比标准ViT提升3.5% Rank-1准确率,证明保留局部邻域结构对ReID任务至关重要。在MSMT17复杂场景数据集中,CII-ViT的推理速度比CNN快22%。

该研究开创性地将Transformer架构与相机感知机制结合,为解决无监督ReID的跨相机偏差问题提供了新思路。特别值得注意的是,CIE模块的通用性使其可扩展至其他跨摄像头视觉任务,而CM策略为无监督学习中的伪标签优化提供了可借鉴的范式。团队在讨论中指出,未来可探索动态相机矩阵和跨模态特征融合等方向,进一步推动无监督ReID在实际安防场景中的应用落地。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号