多变量增强的细粒度知识渐进网络在跨模态行人检索中的创新应用

【字体: 时间:2025年06月29日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  针对文本-图像跨模态检索中存在的语义鸿沟和特征对齐难题,研究人员提出ME-FKPN框架,通过标准化知识锚点(SKA)和混合专家模块(MoLE)实现多层次特征融合,在UFine6926数据集上R@1指标提升16.49%。该研究为智能安防和城市治理提供了新的技术范式。

  

在人工智能赋能城市治理的浪潮中,文本驱动的行人检索(TBPR)技术正成为连接自然语言与视觉智能的关键纽带。这项技术允许安保人员通过"穿红色外套、背黑色双肩包的男性"等自然描述快速锁定目标,但其发展面临三重困境:文本描述的语义模糊性犹如"雾里看花",图像特征的环境敏感性导致"管中窥豹",而跨模态对齐的不确定性更是造成"指鹿为马"。现有方法要么像"盲人摸象"般仅关注局部特征,要么如"削足适履"强行统一异构数据,难以满足智慧城市对精准检索的迫切需求。

针对这些挑战,中国某高校的研究团队在《Knowledge-Based Systems》发表的研究中,提出了多变量增强细粒度知识渐进网络(ME-FKPN)。该研究创新性地融合了知识图谱与视觉特征增强技术,通过三阶段渐进式训练策略,在UFine6926超细粒度数据集上实现平均精度(mAP)14.69%的提升,为跨模态检索领域树立了新标杆。

研究采用三大核心技术:基于图注意力网络(GAT)的标准化知识锚点(SKA)构建语义知识图谱;混合LoRA专家(MoLE)模块通过去雾彩色/灰度图像融合提取鲁棒特征;设计多变量知识渐进优化策略(MKPOS)实现从单属性到全属性的层次化训练。实验数据来自CUHK-PEDES、ICFG-PEDES等公开数据集。

研究结果
Abstract
ME-FKPN通过分层增强同构与异构知识的协同作用,逐步建立图文间精确语义对齐。在UFine6926数据集上,R@1、R@5、R@10和mAP分别提升16.49%、9.79%、6.23%和14.69%。

Introduction
现有TBPR方法存在上下文挖掘不足、属性关系建模能力有限等缺陷。ME-FKPN通过SKA模块挖掘文本隐含语义,MoLE模块增强视觉特征鲁棒性,MKPOS策略实现三阶段渐进优化,其设计思路如图1(E)所示,显著优于传统全局匹配(A)和局部匹配(B)方法。

Method
SKA模块构建包含13类标准属性的知识图谱,通过GAT网络计算节点注意力权重。MoLE采用分组专家机制,分别处理去雾彩色图像(保留纹理)和灰度图像(抵抗光照变化),最终通过门控单元融合特征。MKPOS包含单属性对齐、多属性组合学习、全属性微调三个阶段,各阶段采用定制化损失函数。

Experiments
在四个基准测试中,ME-FKPN全面超越现有技术。消融实验显示SKA使mAP提升5.2%,MoLE贡献4.8%增益,而完整MKPOS策略带来4.69%额外提升。可视化分析证实该方法能准确捕捉"戴眼镜穿条纹衫"等复合属性。

Conclusion
该研究通过标准化知识表示和渐进式特征优化,首次实现TBPR任务中同构知识与异构知识的协同增强。MoLE模块创新的双通路设计为复杂环境下的视觉理解提供新思路,而MKPOS策略为多阶段跨模态学习建立可推广范式。

这项研究的现实意义不仅体现在技术指标的突破,更在于其用户中心设计理念——系统可自动理解"拿奶茶的女生"等口语化描述,大幅降低安防人员的使用门槛。未来通过融合大语言模型的知识蒸馏技术,有望进一步缩小理论研究与实际应用的鸿沟。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号