
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于伪标签学习的跨模态行人重识别半监督方法研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Image and Vision Computing 4.2
编辑推荐:
针对跨模态行人重识别(RGB-IR Re-ID)中标注数据稀缺与模态差异大的挑战,研究人员提出了一种半监督跨模态伪标签学习框架(CPL),通过特征映射、身份对齐和动态中心交叉熵损失(DC_CE)模块,实现了有限标注数据与大量未标注数据的协同优化。实验表明,CPL在SYSU-MM01和RegDB数据集上性能显著优于现有方法,为复杂场景下的跨模态识别提供了新思路。
在智能安防领域,行人重识别(Re-ID)技术是追踪目标人物的关键手段。然而,传统方法依赖单一可见光(RGB)模态,在夜间或光线不足时性能骤降。尽管红外(IR)摄像头的普及弥补了这一缺陷,但跨模态(RGB-IR)Re-ID面临两大难题:一是模态间特征分布差异显著,可见光捕捉颜色纹理而红外反映热辐射模式;二是海量监控数据中标注成本高昂,仅少量数据能被可靠标记。现有监督学习方法(如特征对齐和图像翻译)虽在标注充足时表现良好,但在半监督场景下(如仅20%标注率)性能急剧下降,亟需新方法突破标注依赖瓶颈。
为此,中国研究人员提出首个半监督跨模态行人重识别框架CPL(Cross-modality Pseudo Label Learning)。该工作创新性地将伪标签生成与动态中心优化相结合,通过三阶段模块化设计:特征映射模块提取跨模态共享特征,身份对齐模块实现全局-局部双重特征对齐,伪标签生成模块基于置信度筛选可靠样本。关键突破在于提出动态中心交叉熵损失(DC_CE),通过动态调整类中心距离约束,有效缓解伪标签噪声干扰。实验证明,CPL在SYSU-MM01和RegDB数据集上Rank-1准确率显著超越JSIA、DDAG等方法,相关成果发表于《Image and Vision Computing》。
主要技术方法
研究采用SYSU-MM01(395ID/22,258RGB+11,909IR)和RegDB(412ID/4,120图像对)数据集,构建半监督训练集(部分RGB-IR样本标注)。技术核心包括:1)双流特征映射网络提取模态不变特征;2)基于注意力机制的身份对齐模块;3)置信度阈值控制的伪标签迭代生成策略;4)动态中心交叉熵损失(DC_CE)优化类内相似性。
研究结果
特征映射模块
通过共享-私有特征解耦设计,将RGB和IR图像映射到统一子空间,实验显示该模块使跨模态特征距离缩小38.7%。
身份对齐模块
全局分支采用跨模态对比损失,局部分支通过空间注意力对齐身体部件特征。消融实验表明双分支结构使Rank-1提升12.5%。
伪标签生成模块
基于K近邻置信度筛选,仅保留置信度>0.95的样本参与训练。在20%标注率下,该策略使误标率低于6.2%。
动态中心交叉熵损失(DC_CE)
通过动态更新类中心距离阈值,较传统交叉熵损失使SYSU-MM01的mAP提升4.8%,显著缓解伪标签噪声传播问题。
结论与意义
CPL框架首次系统解决了半监督跨模态Re-ID的三个核心问题:模态差异、标注稀缺和伪标签可靠性。动态中心优化策略(DC_CE)为半监督学习中的噪声抑制提供了新思路,而模块化设计可扩展至其他跨模态任务。实际应用中,CPL仅需20%标注量即可达到全监督模型92%的性能,大幅降低安防系统部署成本。该研究为多模态智能监控提供了方法论基础,被审稿人评价为"半监督跨模态Re-ID领域的里程碑式工作"。
生物通微信公众号
知名企业招聘