结合关系探索的视觉变换器在行人属性识别中的应用

《IEEE Transactions on Multimedia》:Vision Transformer With Relation Exploration for Pedestrian Attribute Recognition

【字体: 时间:2025年11月19日 来源:IEEE Transactions on Multimedia 9.7

编辑推荐:

  行人属性识别通过探索图像区域与属性间关系实现高精度,但现有方法存在直接使用主干网络特征或单一结构(如Transformer)导致关系挖掘效率低和片面问题。本文提出ViT-RE框架,创新设计属性与上下文特征投影模块(ACFP)和关系探索模块(REM),结合图卷积网络(GCN)块与Transformer块同步挖掘属性、上下文及属性-上下文关联,并引入动态邻接模块(DAM)增强细粒度连接。实验表明,该模型在PETA、RAP、PA-100 K等数据集上表现优异,并获WACV 2023 UPAR挑战赛冠军。

  

摘要:

通过探索图像区域与属性之间的关系,行人属性识别已经取得了较高的准确率。然而,现有方法通常直接从主干网络中提取特征,或者仅使用单一结构(例如Transformer)来探索这些关系,从而导致关系挖掘效率低下且不全面。为了解决这些问题,本文提出了一种名为“带有关系探索的视觉Transformer”(ViT-RE)的综合性关系框架,用于行人属性识别。该框架包含两个新颖的模块:属性与上下文特征投影模块(ACFP)和关系探索模块(REM)。在ACFP中,分别学习特定于属性的特征和具有上下文意识的特征,以捕获针对属性和图像区域定制的判别信息。然后,REM利用图卷积网络(GCN)块和Transformer块同时探索属性关系、上下文关系以及属性与上下文之间的关系。为了实现细粒度的关系挖掘,进一步提出了动态邻接模块(DAM),为GCN块构建实例级别的邻接矩阵。凭借全面的关系信息,ViT-RE在包括PETA、RAP和PA-100 K在内的三个流行数据集上取得了良好的性能。此外,ViT-RE在2023年WACV UPAR挑战赛中获得了第一名。

引言

行人属性识别(PAR)旨在检测监控场景中视频摄像机拍摄的行人图像的性别、年龄、服装、配饰等属性。随着对公共安全需求的增加以及智慧城市的发展,PAR方法变得越来越普遍[1]、[2]、[3]、[4]、[5]、[6]。然而,由于两个根本性问题,PAR仍然是一项具有挑战性的任务。一个问题源于多标签任务的固有复杂性;另一个问题与行人图像的特性有关,例如外观变化、照明多样性、分辨率低和部分遮挡。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号