跨模态渐进式特征增强网络:基于外部语义到内部语义的图像文本检索新方法

【字体: 时间:2025年09月07日 来源:Neural Networks 6.3

编辑推荐:

  本文创新性地提出两步渐进式特征增强网络(SFE),通过构建外部语义线索(ESC)到内部语义线索(ISC)的传播路径,有效解决图像文本检索(ITR)中的"异质性鸿沟"问题。该方法首次在ITR领域探索跨模态ESC,利用补丁级、实例级和邻居级共现挖掘技术,结合交叉模态上下文特征增强,在Flickr30K和MSCOCO数据集上取得state-of-the-art性能。

  

Highlight亮点

• 图像文本对中的语义线索包含"球"、"帽子"、"球拍"等概念。方法(a)由于仅依赖内部语义线索(ISC),难以准确捕捉图像区域与词汇的匹配关系,导致相同形状语义概念间的相似度评分偏低。而方法(b)通过统计模式识别出"球"与"球拍"的强相关性,有效缩小了相同形状语义概念间的距离。

• 相比单模态ESC,我们提出的SFE网络在第一步就利用跨模态ESC,能够充分挖掘"球网"、"裁判"等补充语义概念,从而更全面理解"网球比赛"场景。这使得"球"与"球拍"的相似度因其与场景的强相关性而提升,而"帽子"与两者的相似度则因其弱相关性而降低。在第二步,外部语义线索传播的有用信息进一步提升了图像区域-词汇匹配的准确性,使相同形状语义概念间的距离进一步缩小。

Conclusion结论

本工作提出了一种双层渐进式特征增强网络用于ITR任务,实现了有价值语义信息从外部层到内部层的传播。首先在第一步,通过多级共现挖掘从图像文本语料库构建外部语义线索;其次在第二步,将外部层学习到的语义信息通过跨模态内容挖掘融合到内部语义线索中。在Flickr30k和MSCOCO数据集上的大量实验验证了该方法的优越性。

CRediT作者贡献声明

王靖尧:初稿撰写,可视化,软件,方法论,形式分析。刘铮:初稿撰写,项目管理,方法论,调研,资金获取,形式分析,概念化。高山山:可视化,监督,方法论,资金获取,形式分析。徐俊浩:初稿撰写,验证,方法论,形式分析。李长浩:可视化,验证,方法论,数据管理。

Declaration of competing interest利益冲突声明

王靖尧、刘铮、高山山、徐俊浩和李长浩声明,他们没有已知的可能影响本工作报告的竞争性财务利益或个人关系。

Acknowledgments致谢

本研究得到教育部人文社科项目(20YJA870013)、济南市高校科研工作室(202228105)的资助。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号