跨模态行人重识别的统一双射图文生成模型

【字体: 时间:2025年07月03日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  为解决文本-图像行人重识别(T2I ReID)中训练数据匮乏与跨模态差异大的核心挑战,本研究提出了一种基于潜在扩散模型(MCDiff)的统一双向生成框架。该模型通过CLIP编码器构建共享特征空间,利用互条件机制实现图文双向生成,在CUHK-PEDES等数据集上将Rank-1准确率提升2.1%,显著增强了跨模态对齐能力与数据增强效果。

  

在安防监控和智能检索领域,通过文本描述快速定位目标人物(文本-图像行人重识别,T2I ReID)具有重要应用价值。然而,现有技术面临两大瓶颈:一是标注图文对数据稀缺导致模型泛化性不足;二是文本与图像的模态差异阻碍语义对齐。传统方法依赖非生成式模态补偿,难以同时解决数据量与模态鸿沟问题。

为突破上述限制,东北大学创新团队在《Knowledge-Based Systems》发表研究,提出统一双射图文生成框架。该框架以潜在扩散模型为核心,结合三阶段技术路径

  1. 采用CLIP预训练的文本/图像编码器将原始数据映射至共享潜在空间;
  2. 设计互条件扩散模型(MCDiff),通过双向条件机制(文本特征引导图像去噪,图像特征约束文本生成)实现概率密度建模;
  3. 利用Transformer图像解码器与GPT-2兼容的文本解码器重构高质量数据。在CUHK-PEDES、ICFG-PEDES和RSTPReid三个基准数据集上,生成样本有效扩充训练集并缩小模态差异。

实验结果

生成质量验证
视觉化对比显示,生成图像保留细节纹理(如服饰图案),文本描述精准捕捉视觉属性(颜色、动作等),证明潜在空间对齐有效性。

跨模态检索性能
在3400个测试文本的CUHK-PEDES数据集上:

  • Rank-1达68.9%,超越最优基线IRRA(66.8%)和CADA(66.9%)
  • mAP提升3.2%,表明生成样本增强模型判别特征学习

消融实验关键发现

  1. 互条件机制贡献最大(性能提升2.3%),证明双向引导对捕获跨模态依赖至关重要
  2. CLIP编码器迁移学习使训练效率提升40%
  3. 一维UNet结构比独立网络参数量减少37%,推理速度加快1.8倍

结论与意义

本研究首创的统一双射生成框架突破T2I ReID领域两大瓶颈:

  1. 数据扩充:生成的逼真图文对使训练样本量扩展3倍,缓解小样本过拟合;
  2. 模态对齐:MCDiff的互条件机制通过潜在空间双向约束(文本→图像特征精化,图像→文本语义引导),显著提升跨模态一致性。技术价值体现在:
  • 为多模态生成提供新范式:单一扩散模型实现图文双向转换
  • 推动安防应用落地:实验证明生成文本可替代20%人工标注
  • 开源模型参数促进跨模态学习社区发展

注:研究细节均依据原文,如潜在扩散模型结构(3.2节)、UNet优化目标(3.3节)、数据集统计(4.1节表1)、消融实验设置(4.4节)等。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号