
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于属性感知的隐式模态对齐方法在文本属性行人搜索中的应用研究
【字体: 大 中 小 】 时间:2025年06月29日 来源:Knowledge-Based Systems 7.2
编辑推荐:
针对文本属性与图像间模态鸿沟导致的跨模态对齐难题,研究者提出属性感知隐式模态对齐(AIMA)框架。通过CLIP模型构建多模态骨干网络,结合掩码属性预测(MAP)模块实现隐式局部对齐,并创新性提出A-IoU IMC损失函数优化属性空间分布。实验表明该方法在Market-1501等数据集上显著超越现有SOTA,为智能安防领域证人描述检索提供新范式。
在智能安防领域,通过监控图像搜索特定行人已成为常规手段,但当图像数据缺失时,依赖目击者描述的文本属性检索便成为关键突破口。然而,结构化属性(如"红色上衣、黑色背包")与视觉特征间存在显著的模态差异,传统方法采用单模态预训练模型(如ResNet)进行显式对齐,往往导致跨模态信息失真。更棘手的是,不同属性类别(如"性别"与"服饰颜色")在嵌入空间的语义距离缺乏有效约束,使得相似度计算出现偏差。
针对这些挑战,研究人员开发了属性感知隐式模态对齐(Attribute-Aware Implicit Modality Alignment, AIMA)框架。该研究创新性地引入多模态预训练模型CLIP作为基础架构,通过设计结构化提示模板将离散属性转化为自然语句,例如将"男性、戴帽子"转换为"这是一位戴帽子的男性行人"。这种处理既保留了属性间的逻辑关系,又激活了CLIP的跨模态理解能力。
关键技术包括:1)掩码属性预测(Masked Attribute Prediction, MAP)模块,通过随机遮蔽文本属性并利用注意力机制实现图像与文本的隐式局部对齐;2)属性交并比引导的模态内对比损失(Attribute-IoU Guided Intra-Modal Contrastive, A-IoU IMC),依据不同属性在标注中的共现频率(IoU)动态调整嵌入空间距离。实验采用Market-1501 Attribute、PETA和PA100K三个标准数据集,通过平均精度(mAP)和首位命中率(Rank-1)评估性能。
方法设计
研究团队构建的多阶段框架包含四个核心组件:图像编码器采用CLIP的ViT分支提取视觉特征;文本编码器通过设计的提示模板处理属性组合;多模态编码器采用交叉注意力机制实现特征交互;MAP模块通过预测被遮蔽属性实现自监督学习。A-IoU IMC损失则计算属性对的Jaccard相似度作为权重,约束正负样本在特征空间的分布。
实验结果
在Market-1501数据集上,AIMA的mAP达到68.7%,较基线方法提升9.2%。消融实验显示:单独使用CLIP微调即可获得62.3%的mAP,证明预训练知识迁移的有效性;引入MAP模块带来3.1%的性能增益;A-IoU IMC损失进一步优化了"长尾属性"(如稀有服饰颜色)的区分度。可视化分析表明,该方法使"性别"等强语义属性在嵌入空间形成明显聚类,而"背包颜色"等弱语义属性则保持合理重叠。
结论与展望
该研究通过隐式对齐策略有效缓解了模态鸿沟问题,其创新点在于:1)利用CLIP的先天跨模态能力避免特征失真;2)通过自监督学习减少对显式标注的依赖;3)建立属性相似度与空间距离的量化关联。论文发表于《Knowledge-Based Systems》,为开放场景下的行人检索提供了可扩展的解决方案。未来工作可探索动态提示模板生成及多模态大模型的应用,进一步提升对模糊描述的鲁棒性。
生物通微信公众号
知名企业招聘