
-
生物通官微
陪你抓住生命科技
跳动的脉搏
双辅助模态与多阶段语义信息融合网络在可见光-红外行人重识别中的应用研究
【字体: 大 中 小 】 时间:2025年06月06日 来源:Digital Signal Processing 2.9
编辑推荐:
为解决可见光-红外行人重识别(VI-ReID)中模态差异大、信息损失严重的问题,研究人员提出了一种双辅助模态与多阶段语义信息融合网络(DMMSIF)。该研究通过引入双辅助模态实现跨模态平滑过渡,结合多阶段特征融合模块(MSIF)和两种新型损失函数(Modality Distribution Alignment Loss和Hybrid-Center Triplet Loss),显著提升了跨模态匹配精度。实验在SYSU-MM01等数据集上验证了方法的优越性,为复杂光照条件下的安防应用提供了新思路。
在公共安全领域,行人重识别(ReID)技术通过跨摄像头追踪目标人物发挥着重要作用。然而,传统方法依赖可见光图像,在夜间或低光环境下性能骤降。可见光-红外行人重识别(VI-ReID)虽能解决这一问题,却面临更大的挑战:红外与可见光图像的成像原理差异导致模态间特征分布不匹配,直接提取共享特征易丢失身份信息,而单一中间模态的转换又难以弥合巨大差异。
河南大学的研究团队在《Digital Signal Processing》发表论文,提出双辅助模态与多阶段语义信息融合网络(DMMSIF)。该研究创新性地采用双辅助模态生成器,为原始可见光(RGB)和红外(IR)图像分别生成过渡模态,构建四分支网络实现渐进式特征对齐;设计多阶段语义信息融合模块(MSIF)整合局部与全局特征;并提出模态分布对齐损失(Lmda
)和混合中心三元组损失(Lhct
)优化跨模态特征空间。关键技术包括:基于ResNet-50的四分支特征提取、双模态生成器的中间图像合成、MSIF模块的跨阶段注意力机制,以及SYSU-MM01等数据集的验证实验。
Overall Model Architecture
研究构建的四分支网络分别处理RGB、IR及两种辅助模态。双辅助模态生成器通过颜色空间转换和噪声注入生成过渡图像,使原始模态差异从“陡崖”变为“缓坡”。MSIF模块通过二阶特征融合(通道注意力和空间金字塔池化)挖掘多阶段语义关联,增强特征判别力。
Datasets and Experimental Settings
在SYSU-MM01(含491人次的8万+可见光与1.5万+红外图像)、RegDB和LLCM数据集上测试。All-Search模式下,DMMSIF的Rank-1准确率较基线模型提升9.8%,证实双模态辅助策略有效缓解了“模态鸿沟”。
Conclusion
该研究通过双辅助模态的渐进式对齐、MSIF模块的多层次特征融合,以及Lmda
和Lhct
损失的联合优化,首次实现四模态特征空间统一。实验表明该方法在跨模态检索任务中显著优于单中间模态方案,尤其在低光环境下身份匹配准确率提升明显。这项成果不仅为VI-ReID提供了新范式,其渐进式模态转换思想对多模态医学影像分析等领域亦有借鉴价值。
生物通微信公众号
知名企业招聘