超越几何学:可解释的3D人物ReID中纹理的力量
《Computer Vision and Image Understanding》:Beyond geometry: The power of texture in interpretable 3D person ReID
【字体:
大
中
小
】
时间:2025年09月27日
来源:Computer Vision and Image Understanding 3.5
编辑推荐:
3D身份重识别框架FusionTexReIDNet通过双流架构融合UV纹理的高分辨率外观特征与3D点云的几何信息,结合可解释性模块实现激活图可视化与Intersection-Alignment Score优化,显著提升跨视角匹配精度,在Market-1501和AG-ReID.v2上达到98.5%和89.7%的Rank-1准确率。
FusionTexReIDNet是一种创新的3D人再识别(ReID)框架,其独特之处在于利用UVTexture来提升模型的性能和可解释性。与现有的3D人ReID方法不同,这些方法仅在点云上叠加纹理,而FusionTexReIDNet则通过其高分辨率和归一化坐标特性,充分挖掘了UVTexture的潜力。该框架由两个主要的处理流组成:一个用于处理外观特征的UVTexture流,另一个用于处理几何信息的3D流。这些流通过有效的KNN、基于属性和可解释性重排序策略进行融合,从而提高识别的准确率。此外,该方法通过在UVTexture上可视化激活图,引入了可解释性,使模型的决策过程更加透明,从而提供有关哪些身体部位对身份匹配起关键作用的见解。通过结合激活图和可见衣物掩码得出的交集对齐得分(IAS),我们进一步提高了ReID的准确率。实验结果表明,FusionTexReIDNet在多个基准数据集上达到了最先进的性能,其Rank-1准确率达到了98.5%和89.7%。
在2D人ReID领域,尽管已有显著进展,但它们无法解决一个关键问题:人类本质上是三维实体。传统2D方法通常难以应对不可预测的视角变化和由摄像机定位引起的几何变形,这些因素被认为是导致跨域泛化性能不佳的主要原因。将人ReID从2D空间转移到3D空间,可以利用3D人体模型提供的额外信息,从而增强该领域的应用潜力。这些模型能够归一化由于人体运动、动态、摄像机距离和光照条件引起的外观变化,提供一致的身份表示。此外,3D模型能够通过考虑可见身体部位的变化和显式处理视角变化,实现不同观察模式(如空中与地面)之间的身份匹配。
然而,现有的SOTA 3D人ReID方法在性能和跨域视角变化处理方面仍然落后于其2D对应方法。大多数现有的3D人ReID方法(如PointReIDNet、3DInvarReID和OG-Net)仅从输入图像重建3D模型,并直接对其进行分类,而没有显式地处理视角归一化问题。例如,这些方法首先从输入图像推断SMPL-based的3D人体模型,然后将纹理叠加到3D模型上,编码叠加后的点云数据,再对编码向量进行分类。然而,这些方法未能利用3D重建所提供的显式视角对齐能力,从而错过了归一化几何变形和外观变化的机会。
与现有方法不同,我们的工作通过显式的3D视角对齐和稳健的纹理表示解决了这些基本限制。我们提出了FusionTexReIDNet,一种创新的方法,利用3D人体模型进行显式的视角归一化,将行人图像从任意视角投影到规范视角,以减轻几何变形和外观差异的影响。我们的方法结合UVTexture表示和3D视角对齐,实现了性能和可解释性的提升,如图1所示。通过利用UVTexture的高分辨率和归一化坐标特性,我们的方法能够捕捉细粒度的外观细节,同时实现对人体身体上关键特征的精确定位。此外,我们引入了基于Transformer的融合模块,通过对齐和融合原始视角和规范视角图像的视觉线索,补偿重建误差,确保即使在3D重建不完美时也能实现稳健的性能。
在跨域场景中,传统的2D方法通常会受到视角依赖的激活模式和背景偏差的影响,导致难以识别真正对身份匹配起作用的特征。相比之下,我们的3D方法提供了视角不变的解释,使得在不同摄像机视角下保持空间一致性。通过将行人外观投影到归一化的UV坐标系统中,我们的方法确保了激活图在不同视角下的一致对齐,消除了背景偏差,提供了清晰的可视化,展示了哪些身体部位(如上半身图案、衣物设计)对身份匹配起关键作用。这种空间一致性在跨视角场景(如空中-地面匹配)中尤为重要,因为传统2D方法由于极端视角差异而无法提供可靠的解释。
我们的方法在可解释性方面进行了关键创新,通过将可见衣物掩码与激活图结合,实现了遮挡感知的匹配。如图3所示,可见掩码(黄色区域)指示了行人图像中可见的部分,而激活图揭示了模型关注的区域。通过计算这些两个组件之间的交集对齐得分(IAS),我们量化了模型在可见、可区分区域的注意力集中程度,而不是遮挡区域。这种可解释性驱动的优化创建了一个反馈循环,其中可解释性直接提升了性能——当可视化显示模型过于关注遮挡区域(低IAS)时,可解释性重排序机制会调整相似度评分以避免这样的匹配。换句话说,如果可视化显示模型在遮挡区域过分强调,这表明模型可能未能从可见区域有效学习可区分特征。
FusionTexReIDNet的可解释性方法将可解释性从一种后验分析工具转化为ReID流程中的核心组成部分。通过提供一种无背景、视角不变的表示,并保持一致的空间对应关系,我们的方法使研究人员能够深入了解模型的行为,并做出明智的决策以优化性能。UVTexture的高分辨率特性保留了细粒度的细节,同时维持了全局结构,使模型能够捕捉到既包括细微纹理变化又包括整体外观模式的多尺度可解释性。这种全面的方法不仅提高了3D人ReID的准确性,还提供了可解释的结果,从而增强了模型决策过程的信任度和理解度。
在实验部分,我们对FusionTexReIDNet进行了全面的评估,并在多个常用的大型基准数据集上进行了比较分析,如表2所示。这些数据集涵盖三种不同的类别:地面-地面数据集(Market-1501、DukeMTMC-reID和MSMT-17),这些数据集由低于10米的固定CCTV摄像机拍摄;空中-空中数据集(PRAI-1581和UAV-Human),这些数据集包含来自不同高度的无人机拍摄图像;以及空中-地面数据集(AG-ReID.v1和AG-ReID.v2),这些数据集结合了多种观察视角。值得注意的是,AG-ReID.v2引入了三平台方法,结合了CCTV、无人机和可穿戴设备的视角,使其特别适用于评估不同视角和拍摄条件下的跨视角人ReID能力。
评估指标方面,我们采用了两种广泛使用的指标:累积匹配特征(CMC)的rank-k准确率和平均精度(mAP)。Rank-k表示真实匹配出现在前k个检索结果中的概率,其中Rank-1是最常报告的指标。另一方面,mAP是一个更全面的指标,考虑了精度和召回率,反映了模型在所有查询上的平均性能。它被计算为每个查询的平均精度(AP)的均值,其中AP是精度-召回曲线下的面积。此外,我们还报告了模型参数的数量(#params),以提供模型复杂度的见解。
在实现细节部分,我们详细描述了实验的硬件设置和训练设置。实验在基于Linux的操作系统上进行,使用x86_64架构的高性能计算(HPC)节点,这些节点配备了NVIDIA A100 GPU,以执行计算任务。软件栈包括多个关键组件。使用的Python版本为3.7.12,CUDA工具包版本为10.1,用于启用GPU加速,cuDNN库版本为7.6。实验使用PyTorch版本1.4进行实现。
训练设置方面,UVTextureNet使用Adam优化器进行训练,学习率设为10^-4。3DReIDNet的训练遵循Zheng等人(2020)的方法,图像尺寸为128×64。我们通过人体网格恢复(Kanazawa等人,2017)和Texformer(Xu和Loy,2021)方法获得6890个包含RGB信息的点,并使用最远点采样(FPS)方法进行采样,以供模型输入。模型从头开始训练,共进行1000个epoch,使用随机梯度下降(SGD)算法,批处理大小为32,权重衰减为0.0005,动量为0.9。学习率最初设置为0.01,并使用余弦策略进行降低。我们在最后的线性分类层之前应用了数据增强技术,如随机缩放、位置抖动和dropout(概率为0.7)。
在测试阶段,我们考虑了在进入分类器前提取的512维L2归一化特征作为人类表示。计算查询和图库特征之间的余弦相似度,并对图库图像进行排序以获得排名列表。3DReIDNet和UVTextureNet的距离通过加权求和进行融合,最优权重通过迭代过程确定。应用了三种优化重排序方法以进一步提高结果:KNN重排序、属性重排序和可解释性重排序。在可解释性重排序中,IoU阈值设为0.2,鼓励因子α设为0.7,抑制因子β设为1.3,并通过调整因子进行优化。激活对齐阈值设为0.15,激活相似度通过余弦相似度计算,权重为0.4。更多关于融合权重和重排序设置的细节,请参见附录B。
我们的方法在多种优化技术下取得了显著的性能提升。表4展示了我们提出的FusionTexReIDNet方法与基线方法的比较,使用Texformer生成的点云输入。表4中,我们的方法在Market-1501数据集上取得了98.5%的Rank-1准确率和93.5%的mAP,这显著优于基线配置。优化技术在所有数据集上都表现出一致的性能提升,其中FusionTexReIDNet(1,2,3)在Rank-1准确率上达到了98.5%,mAP达到了93.5%。这些结果验证了我们的核心假设:通过显式的视角归一化和稳健的纹理表示,3D人ReID方法可以超越2D方法,其中我们的基于UVTexture的框架提供了视角不变的解释,使激活图在不同摄像机视角下保持空间一致性。
在空中-地面场景中,我们的FusionTexReIDNet方法表现出卓越的性能,这些场景是人ReID中最困难的跨视角匹配任务。在AG-ReID.v1数据集上,我们的方法达到了90.5%的Rank-1和86.6%的mAP,而在更大的AG-ReID.v2数据集上,FusionTexReIDNet达到了89.7%的Rank-1和87.0%的mAP。这些结果显著优于SOTA的2D方法,如DC-Former,在AG-ReID.v2上分别提高了16.2%和26.9%。这种显著的性能提升可以归因于我们视角不变的UVTexture表示,它在极端视角下保持了空间一致性,从而在空中俯视和地面侧视视角之间实现了可靠的特征对应,而传统2D方法由于几何变形和外观变化而失败。
我们还进行了消融研究,以分析不同的3D重建方法和输入表示对人ReID性能的影响。表5展示了使用Texformer生成的不同输入类型的结果。常规的3D人表示达到了85.18%的Rank-1和66.74%的mAP。使用规范姿态和性别特定的SMPL模型导致了不同的性能结果。例如,规范姿态的3D人表示的Rank-1和mAP分数低于常规的3D人表示。此外,3D背景信息的加入在某些情况下显示出适度的改进,但在更复杂的场景中,其贡献确实有限甚至有害。3D背景的有限有效性可以归因于几个因素。首先,我们的方法中3D背景本质上是原始图像背景的平面投影,缺乏真实的深度信息。不像人体网格受益于复杂的3D重建技术(RSC-Net和Texformer),背景缺乏几何结构和空间关系,这些结构和关系才能真正对人ReID提供信息。其次,背景信息可能引入与主任务(人识别)无关的噪声和干扰,因为模型需要区分与环境上下文相关的特征和人特定的特征。
更关键的是,当与更复杂的表示(如规范姿态或性别特定模型)结合时,3D背景通常显示出有害的影响。例如,规范姿态的3D人+3D背景(slim=1)达到了61.65%的mAP,而没有背景信息时达到了65.41%。这代表了3.76%的显著性能下降。性别特定分析揭示了一个微妙的模式:基本的性别特定模型可以从背景上下文中受益(84.97%的mAP有背景,而没有背景时为64.00%),但规范姿态的性别特定模型则因背景信息的加入而受到影响(60.00%的mAP有背景,而没有背景时为62.29%)。这表明了不同建模方法与背景信息之间的复杂相互作用,这取决于人体表示中实现的姿势和身份归一化程度。这些发现强调了有意义的3D场景理解的重要性,而不是简单的背景投影,表明未来的工作应集中在开发真正的3D场景重建方法,这些方法可以提供几何一致且语义丰富的上下文。
基于可解释性的改进技术通过利用IoU得分和对齐得分来增强性能和可解释性。如图8所示,该方法分析了查询和图库图像的焦点区域,其中IoU得分衡量了激活图与可见衣物区域的对齐程度。对齐得分比较了查询和图库图像的激活模式。优化过程鼓励在高IoU和对齐得分对之间的小距离,这表明它们在可见、可区分的衣物区域上有相似的焦点,而对低得分对则增加距离,因为焦点不一致。可视化和比较激活图提供了关于ReID决策的区域信息,使我们能够更好地理解模型的行为,并优化排名列表以提高准确性。
效率方面,表7总结了不同方法的效率:13.8G FLOPs、26.0M参数和52.4ms推理时间。虽然双流设计增加了FLOPs,并比2D方法增加了15-20ms的预处理开销,但考虑到提升的可解释性和跨视角匹配,计算成本仍然是合理的。
尽管存在这些限制,我们的实验结果表明,FusionTexReIDNet在3D人ReID领域取得了最先进的性能,同时为未来的研究方向提供了基础,以解决这些挑战。通过结合可解释性模块和优化重排序策略,我们的方法不仅提升了识别的准确性,还为模型的决策过程提供了更清晰的解释,使得研究者能够更好地理解模型的行为,并在实际应用中进行优化。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号