基于CLIP技术的模态中心化与螺旋训练方法，用于可见光-红外人体重识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：CLIP-Powered Modality Centering with Spiral Training for Visible-Infrared Person Re-Identification

【字体：大中小】 时间：2026年02月21日 来源：Pattern Recognition 7.6

编辑推荐：

　　提出MCST框架解决可见光-红外跨模态人脸识别难题，通过模态中心化对齐四维特征空间（双模态图像及对应文本），设计螺旋训练交替优化文本提示和图像编码器，结合可分离文本描述消除模态偏置，并构建CMG-P大规模数据集包含复杂场景。实验验证其性能达到SOTA水平。

Jianghao Xiong|Xiaohua Xie|Qinyu Feng|Jian-Huang Lai

中山大学计算机科学与工程学院，广州，510006，中国

摘要

跨模态人物重新识别面临重大挑战，因为需要在不同模态（本例中为可见光和红外光）之间对齐特征。鉴于CLIP强大的跨模态学习能力，我们探讨了其弥合这些模态差异的潜力。本文介绍了基于螺旋训练网络的模态中心化（MCST）方法。我们通过使用可分离的描述来增强文本提示，从而在语义层面独立捕获人物特征和模态特定特征，将身份特定特征与模态特定特征区分开来。为了优化图像编码器，我们仅使用人物文本描述来指导身份感知特征的学习。为了对齐同一人物的不同模态特征，我们提出了文本-文本中心化损失来最小化可见光和红外光文本表示之间的距离，以及图像-文本中心化损失来减少图像特征和文本特征之间的差异。此外，我们引入了一种新颖的螺旋训练策略，该策略交替训练文本提示和图像编码器，确保一致性并提高文本和图像特征的对齐度。我们还引入了CMG-P，这是一个新的可见光-红外ReID数据集，其中包含服装变化和遮挡等具有挑战性的场景，提供了一个更真实的评估基准。大量实验表明，我们的方法在多个数据集上取得了先进的性能。代码和数据集可在以下链接获取：https://github.com/WhollyOat/MCST。

引言

可见光-红外人物重新识别（V-I ReID）专注于在可见光和红外光两种模态下识别不同的个体。通过利用这两种互补的模态，V-I ReID能够在从白天到夜间的各种光照条件下实现可靠的身份识别。这项技术在安全监控、公共安全和智能交通系统等应用中尤为重要，因为在这些应用中，鲁棒的人物识别在不同环境条件下至关重要。

由于可见光和红外光图像在光谱特性和分布属性上存在显著差异，直接匹配这两种模态的图像是具有挑战性的。因此，V-I ReID主要解决的是模态差异问题[1]、[2]、[3]。传统的V-I ReID方法侧重于从两种模态中提取图像特征，并对齐可见光图像和红外光图像的特征空间。

随着CLIP-ReID[4]将CLIP[5]整合到图像-图像ReID中，开启了一种新的范式。通过利用大型模型的能力来理解图像语义，模型可以使用文本描述图像，重点关注人体不同部位的特征。这些文本描述随后指导模型提取具有区分性的图像特征。这种方法不需要手动标注文本，简化了训练过程。相反，它利用了大型模型的解释能力，提供了更大的灵活性和潜力。尽管基于CLIP的ReID方法[6]、[7]在可见光场景中取得了显著的成功，但它们在V-I ReID中的应用仍然很大程度上未被探索，并且存在独特的挑战。与仅考虑两种视觉模态的传统V-I ReID框架不同，基于CLIP的方法通过文本提示引入了额外的语义模态，将表示空间从两种模态（可见光和红外光图像）扩展到四种异构特征空间，即可见光图像、红外光图像、可见光文本和红外光文本。这些异构空间的共存显著增加了跨模态对齐的复杂性，简单的成对对齐策略不足以实现保持身份的模态不变表示。

此外，现有的基于CLIP的V-I ReID方法通常将文本提示视为静态的语义锚点，当图像编码器进一步优化时会导致语义漂移。在这种两阶段训练范式中，文本提示是从初始图像表示中派生的，并在后续训练过程中保持不变，导致随着图像特征的变化，文本嵌入和视觉嵌入之间出现不一致。此外，先前的研究主要关注对齐视觉模态，而忽略了文本表示中嵌入的模态偏见，这可能会进一步放大跨模态差异。

这些挑战表明，现有的基于CLIP的V-I ReID方法缺乏一种原则性的机制来联合建模异构的多模态特征空间，并在训练过程中动态维护语义一致性。因此，一个能够同时对齐可见光图像、红外光图像及其对应的文本表示，并动态更新多模态表示的统一框架是非常必要的。

受此启发，我们提出了一种新颖的模态中心化螺旋训练网络（MCST）用于V-I ReID，如图1所示。MCST框架包括模态中心化（MC）策略来减轻模态差异，以及螺旋训练（ST）方案来交替更新文本提示和图像特征。具体来说，基于CLIP-ReID，MC通过减少可见光文本和红外光文本表示之间的差异来增强文本提示。在图像编码器训练方面，MC促进可见光文本和红外光图像表示之间的接近性，反之亦然。这种策略旨在将四个特征空间收敛到中心模态。为了保持文本提示和图像特征之间的相似性，ST在交替阶段动态训练文本提示和图像编码器，每次训练一个部分一段时间后切换到另一个部分。此外，在文本层面使用可分离的文本提示来解耦特征，不断去除模态特定特征以提取模态不变特征。

为了推进V-I ReID的研究，我们引入了一个大规模的基于图像的可见光-红外ReID数据集CMG-P。与现有的V-I ReID数据集相比，CMG-P具有两个关键优势。首先是其真实世界的多样性。这些图像来自真实的行人，包括行人遮挡、尺度变化、服装变化和运动模糊等具有挑战性的场景。这种多样性使数据集能够更好地模拟复杂的真实世界条件，为V-I ReID研究提供了显著的好处。此外，CMG-P包含36,031张可见光图像和36,144张红外光图像，涉及1,011个个体，是该领域最广泛的数据集之一。关于数据集的更多详细信息在第5.1.1节中提供。

我们工作的主要贡献可以总结如下：

•

我们提出了一种新颖的模态中心化（MC）框架用于V-I ReID，该框架将四种异构特征空间（可见光/红外光图像和文本）共同对齐到共享的身份区分性嵌入空间，解决了跨模态和文本-图像模态差异问题。

•

我们引入了一种螺旋训练（ST）方案，该方案动态更新文本提示和图像编码器，克服了由静态提示引起的语义漂移问题，并在训练过程中保持多模态表示的一致性。

•

我们设计了可分离的文本提示，以区分身份特定和模态特定的语义，从而在语义层面显式去除模态偏见，并促进模态不变表示的学习。

•

我们构建了一个大规模的V-I跨模态ReID数据集CMG-P，其中包含服装变化、遮挡和真实世界噪声，为未来的V-I ReID研究提供了具有挑战性的基准。

章节片段

可见光-红外人物重新识别。

为了弥合可见光和红外光模态之间的差距，当前的方法通常可以分为特征对齐[8]、[9]、[10]和模态转换[11]、[12]、[13]方法。特征对齐旨在将可见光和红外光模态的特征投影到一个共享的特征空间中，以最小化模态差异。SEFL[8]从特征中消除了身份特定的形状信息，使模型能够关注更通用和模态不变的外观线索。HOS-Net[9]

对比语言-图像预训练（CLIP）

CLIP在一个大规模的图像-文本对数据集上进行训练，使其能够为图像和文本学习统一的表示。这种共享的表示使CLIP能够无缝对齐视觉和文本信息，促进两种模态之间的共同理解。具体来说，CLIP由两个独立的编码器组成：一个图像编码器

I (\cdot)

和一个文本编码器

T (\cdot)

。图像编码器

I (\cdot)

通常使用Vision Transformer[28]或ResNet[29]架构。

方法论

在本节中，我们介绍了基于螺旋训练网络的模态中心化（MCST）。MCST在文本令牌的学习过程中交替使用两种类型的文本描述，建立可见光文本和红外光文本之间的联系，以施加约束。在图像编码器的训练过程中，所有图像-文本关系都受到约束，以促进多模态空间的中心化。此外，还提出了一种螺旋训练方法来保持这种联系

数据集

现有的V-I ReID数据集在规模和多样性方面往往受到限制，因为捕捉白天和夜晚条件下相同个体的挑战。这些数据集通常是在受控环境中收集的，缺乏真实世界的复杂性，如遮挡、服装变化和其他外观变化。为了解决这些挑战，我们开发了一个新的V-I ReID数据集CMG-P，其中包含了更复杂的场景。如表1所示，CMG-P引入了

局限性

尽管CLIP在ReID和V-I ReID任务中展示了强大的能力，但像CLIP这样的大型模型的潜力尚未得到充分实现。正如RegDB实验中所观察到的，该模型难以处理缺乏足够语义和细节的热图像，无法捕捉人类外观的细微差异。这一限制限制了我们的方法，因为数据类型的多样性。此外，关于CMG-P的实验结果也表明

结论

在本文中，我们提出了基于螺旋训练网络的模态中心化（MCST）方法，利用CLIP的图像-文本理解能力来解决可见光和红外光图像之间的模态差异。在文本提示训练期间，可分离的文本描述分离了身份特定和模态特定特征，并应用文本-文本中心化损失来居中身份特定的文本特征。在图像编码器训练期间，仅使用人物的文本描述进行指导

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了ChatGPT来提高语言表达和可读性，并在需要时仔细审查和编辑了内容，对出版物的内容负全责。

CRediT作者贡献声明

Jianghao Xiong：写作——审阅与编辑、撰写原始草稿、可视化、验证、软件、资源、方法论、调查、形式分析、数据管理、概念化。Xiaohua Xie：写作——审阅与编辑、资源管理、项目协调、资金获取。Qinyu Feng：写作——审阅与编辑、资金获取。Jian-Huang Lai：写作——审阅与编辑、撰写原始草稿、可视化、验证、软件、资源、方法论，

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本工作得到了中国国家自然科学基金（U22-A2095）和广东省信息安全技术重点实验室项目（项目编号2023B1212060026）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号