基于步态与行为识别特征融合的多年长期行人重识别研究
《Pattern Recognition》:Multi-Year Long-Term Person Re-Identification Using Gait and HAR Features
【字体:
大
中
小
】
时间:2025年10月27日
来源:Pattern Recognition 7.6
编辑推荐:
本文针对长期行人重识别中外观特征易受时间跨度影响的问题,提出了一种融合步态(Gait)和人类行为识别(HAR)的双流框架。研究人员通过跨注意力机制整合两种模态特征,在自建的三年跨时空超跑运动员数据集上验证了模型有效性。结果表明,HAR的引入使跨年场景下的平均精度(mAP)提升了12%,显著增强了模型在无约束环境下的长期识别鲁棒性。该研究为运动生物特征在真实场景中的应用提供了新范式。
在安防监控和智能交通等领域,准确识别特定个体在不同时间和地点出现的记录至关重要,这一任务被称为行人重识别(Person Re-Identification, Re-ID)。传统方法大多依赖衣着、体型等外观特征,然而在现实场景中,同一个人可能在不同季节更换服装,或者经过数年时间外观发生显著变化,使得单纯依靠外观的识别方法面临严峻挑战。面对这一瓶颈,研究者开始将目光转向更具稳定性的生物特征,其中步态(Gait)——即人走路的姿态——因其难以伪装和随时间变化较小的特性,被视为解决长期Re-ID问题的关键。
然而,步态识别本身也存在局限。在拥挤、动态的真实环境中,个体的行走模式可能受到携带物品、地形变化乃至疲劳程度的影响。此时,如果能够结合更高层次的行为模式信息,或许能为身份识别提供互补的线索。这正是题为《Multi-Year Long-Term Person Re-Identification Using Gait and HAR Features》的研究工作的出发点。该研究由David Freire-Obregón等研究者完成,发表在《Pattern Recognition》上,旨在探索将步态与人类行为识别(Human Action Recognition, HAR)相结合,能否创造出更加强大和鲁棒的行人重识别系统。
为了验证这一想法,研究团队构建了一个新颖的两流架构。该架构的核心思想是并行处理两种信息流:一个流专门负责提取精细的步态动态特征,另一个流则专注于从视频中识别出人的行为模式。步态流首先将输入视频处理成一系列人体轮廓图(silhouettes),然后使用基于BiLSTM的编码器来捕捉身体各部分在运动中的时空关系。而HAR流则采用了一种巧妙的预处理步骤:利用步态分析中已经得到的人体轮廓,将视频中除目标人物之外的背景信息进行抑制,只保留与人物活动相关的视觉内容。这样处理后的视频再送入预训练好的HAR模型(如I3D、X3D等)中,提取出描述行为特征的嵌入向量。
最关键的一步在于如何将这两种不同性质的特征融合在一起。研究团队没有采用简单的拼接或相加,而是设计了一个跨注意力融合机制。在这个机制中,步态特征作为查询(Query),HAR特征作为键和值(Key和Value)。这意味着,模型会以当前个体的步态信息为基准,主动地去HAR特征中寻找那些对辨别身份有帮助的行为上下文信息进行加权融合。这种设计确保了步态信息在身份识别中的主导地位,同时又能灵活地吸收行为特征的补充信息。最终,融合后的特征通过一个投影层得到统一的身份表示,用于后续的相似度比较。
在技术方法上,本研究主要依托几个关键环节。首先是特征提取,分别使用预训练的步态识别网络(如GaitSet、GaitPart、GaitGL等)和视频理解网络(如I3D、SlowFast、X3D等)作为双流骨干网络。其次是特征融合,采用跨注意力机制实现步态特征对HAR特征的自适应加权。第三是度量学习,使用三元组损失(Triplet Loss)配合难样本挖掘策略来训练模型,确保同类样本在嵌入空间中的距离小于异类样本。本研究的数据基础是一个新收集的长期时空数据集,包含2020年和2023年超长距离跑步比赛中在多个自然户外地点拍摄的运动员视频。
研究人员首先评估了多种步态识别模型在长期Re-ID任务上的独立性能。结果表明,在跨年识别(如2020年数据与2023年数据互查)这一极具挑战性的场景下,纯外观的基线模型(如MobileNet V2、OSNet等)表现不佳,Rank-1准确率甚至常为0%。而基于步态的模型,尤其是那些在大型真实世界数据集(如GREW)上预训练的模型(如GaitGL_G),展现出了明显的优势。例如,GaitGL_G在RP1_20到RP2_23的跨年识别中取得了46.2%的mAP和23.5%的Rank-1准确率,显著高于外观基线。这证实了步态特征对于克服长期外观变化的有效性。
接下来,研究重点考察了融合HAR特征带来的增益。结果显示,将HAR特征与步态特征(以GaitGL_G为基准)通过跨注意力机制融合后,模型性能得到了普遍且显著的提升。在多个跨年评估方向上,融合模型(如X3D-L与GaitGL_G融合)的mAP和Rank-1准确率均高于单一的步态模型。例如,在RP1_20到RP3_23(三年跨度)的任务中,最佳HAR融合模型(X3D_L)的mAP达到了63.8%,Rank-1达到47.1%,而基线步态模型GaitGL_G的对应成绩分别为53.7%和35.3%。这表明,HAR提供的活动上下文信息能够有效补充步态信息,尤其是在长期、复杂场景下,有助于模型做出更准确的判断。
为了进行对比,研究也评估了模型在短期(同一年内不同地点)Re-ID任务上的表现。不出所料,所有模型在短期任务上的性能均优于长期任务。但重要的是,融合HAR特征的模型同样在短期任务上超越了单一的步态或外观模型。例如,融合模型SL_4x16NLN在RP2_23到RP3_23的识别中取得了85.2%的mAP和76.5%的Rank-1准确率。这进一步证明了步态与HAR融合策略的通用性和有效性,它不仅适用于应对长期变化的挑战,也能提升短期识别的精度。
此外,研究还对比了不同的特征融合策略,包括跨注意力、基于余弦相似度的融合以及简单的拼接。消融实验结果表明,跨注意力融合机制的效果最佳,在各项评测指标上均优于其他融合方式。这验证了所提出的、以步态为引导去选择性融合HAR信息的策略是合理且高效的。
综上所述,这项研究成功地论证了将人类行为识别信息融入步态特征中,可以显著提升行人重识别系统,特别是长期重识别任务的性能。通过精心设计的双流架构和跨注意力融合机制,研究团队建立了一个能够同时利用个体稳定运动特征(步态)和动态行为上下文(HAR)的鲁棒模型。这项工作不仅为解决现实世界中因时间跨度、外观改变带来的Re-ID难题提供了有效的解决方案,也推动了多模态生物特征识别研究的发展。其提出的方法和构建的数据集,为未来在更广阔场景下探索身份识别技术奠定了重要的基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号