
-
生物通官微
陪你抓住生命科技
跳动的脉搏
跨模态行人重识别的统一双射图文生成模型
【字体: 大 中 小 】 时间:2025年07月03日 来源:Knowledge-Based Systems 7.2
编辑推荐:
为解决文本-图像行人重识别(T2I ReID)中训练数据匮乏与跨模态差异大的核心挑战,本研究提出了一种基于潜在扩散模型(MCDiff)的统一双向生成框架。该模型通过CLIP编码器构建共享特征空间,利用互条件机制实现图文双向生成,在CUHK-PEDES等数据集上将Rank-1准确率提升2.1%,显著增强了跨模态对齐能力与数据增强效果。
在安防监控和智能检索领域,通过文本描述快速定位目标人物(文本-图像行人重识别,T2I ReID)具有重要应用价值。然而,现有技术面临两大瓶颈:一是标注图文对数据稀缺导致模型泛化性不足;二是文本与图像的模态差异阻碍语义对齐。传统方法依赖非生成式模态补偿,难以同时解决数据量与模态鸿沟问题。
为突破上述限制,东北大学创新团队在《Knowledge-Based Systems》发表研究,提出统一双射图文生成框架。该框架以潜在扩散模型为核心,结合三阶段技术路径:
生成质量验证
视觉化对比显示,生成图像保留细节纹理(如服饰图案),文本描述精准捕捉视觉属性(颜色、动作等),证明潜在空间对齐有效性。
跨模态检索性能
在3400个测试文本的CUHK-PEDES数据集上:
消融实验关键发现
本研究首创的统一双射生成框架突破T2I ReID领域两大瓶颈:
注:研究细节均依据原文,如潜在扩散模型结构(3.2节)、UNet优化目标(3.3节)、数据集统计(4.1节表1)、消融实验设置(4.4节)等。
生物通微信公众号
知名企业招聘