
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于层次化知识引导推理的文本行人重识别跨模态细粒度对齐研究
【字体: 大 中 小 】 时间:2025年07月22日 来源:Neural Networks 6.0
编辑推荐:
针对文本-图像行人重识别(TIReID)中随机掩码导致语义偏差和短语级表征缺失的问题,研究人员提出层次化知识引导推理框架(HKGR),通过场景图解析实现对象-属性-关系三级掩码,结合多粒度对齐模块(MGA)提升跨模态表征。实验显示该方法在三大基准数据集上R@1指标最高达75.21%,为跨模态检索提供新范式。
在智能安防和城市监控领域,文本-图像行人重识别(Text-image Person Re-identification, TIReID)技术面临严峻挑战:当监控画面需要根据"穿黑色夹克、手持白色背包的男性"等文本描述锁定目标时,现有方法常因跨模态语义鸿沟而失效。传统掩码语言建模(Masked Language Modeling, MLM)方法采用随机掩码策略,如同蒙眼拼图——可能把关键语义碎片(如"红色背包")误作边角料丢弃,却花大力气拼凑"的"、"在"等无意义虚词。更棘手的是,多个文本描述可能指向同一目标的不同特征维度,这种细粒度差异使得现有方法难以建立稳定的视觉-文本对应关系。
针对这一难题,中央中南大学(Central South University)的研究团队在《Neural Networks》发表创新成果,提出层次化知识引导推理框架(Hierarchical Knowledge-Guided Reasoning, HKGR)。该研究突破性地将自然语言描述解析为对象、属性、关系三级场景图,如同为文本安装"语义显微镜":不仅识别"女士"(对象)、"黑色"(属性)、"手持"(关系)等要素,更揭示其层级关联。配合多粒度对齐模块(Multi-Grained Alignment, MGA)的相似度分布约束,最终在CUHK-PEDES等三大基准数据集实现63.10%-75.21%的Rank-1准确率,刷新领域纪录。
关键技术包含:1) 基于场景图的知识引导掩码机制,替代传统随机掩码;2) 对象-属性-关系三级推理模块(KGR)实现跨模态一致性对齐;3) 视觉/文本双模态的判别性token选择方法。
【文本-图像行人重识别】章节揭示,现有全局匹配方法如Sarafianos等(2019)的联合嵌入空间难以捕捉"条纹衬衫"等细节特征,而局部匹配方法又易受语义噪声干扰。实验显示,传统MLM方法在ICFG-PEDS数据集R@1仅58.34%,而HKGR提升至65.29%。
【HKGR设计】部分通过图2展示的架构,验证场景图引导的掩码策略能使模型聚焦关键token。在关系级推理任务中,对"in front of"等空间关系的识别准确率提升12.7%。
【实验结果】显示:1) 在RSTPReid数据集mAP指标达52.16%,超越18个基线模型;2) 消融实验证实MGA模块使细粒度对齐贡献度达37.2%;3) 超参数分析表明对象级掩码比例最优值为35%。
结论部分指出,该框架为视觉问答(VQA)等跨模态研究提供新思路——将知识图谱引入模态对齐,如同为盲人摸象的故事提供解剖学地图。作者Ruigeng Zeng等强调,未来可探索动态掩码比例调整,以应对"红色背包被遮挡"等现实场景。这项来自中国研究团队的成果,标志着行人重识别从"粗放匹配"迈入"知识驱动"的新阶段。
生物通微信公众号
知名企业招聘