差异感知对比学习与专家混合模型在跨模态图文语义对齐中的创新研究
《Neurocomputing》:Discrepancy-Aware Contrastive Learning with Mixture of Experts for Cross-Modal Image-text Semantic Alignment
【字体:
大
中
小
】
时间:2025年10月26日
来源:Neurocomputing 6.5
编辑推荐:
本文提出DA-MoE(差异感知专家混合)框架,通过双流MoE架构整合异质预训练模型(如DINO-ViT、E5),采用基于余弦相似度的动态路由策略和差异感知对比学习,显著提升跨模态图文检索精度。在Flickr30K数据集上实现I→T召回率99.4%(提升超2%),为处理模态异构性提供新方向。
跨模态检索作为视觉与语言领域的桥梁近年备受关注。该任务核心在于如何将图文映射到共享表征空间进行匹配度量。现有研究主要聚焦于提升模型对视觉与文本模态细粒度语义的捕获能力,设计高效可扩展的特征对齐与融合机制,并解决模态异质性挑战。
我们描述了DA-MoE的架构与核心组件,该框架专为解决跨模态图文检索中的异质特征融合与动态适应性问题而设计。图2展示了DA-MoE模型的整体架构。
我们在Flickr30K和MSCOCO两个标准图文检索基准上评估DA-MoE性能。这些数据集在视觉多样性与语义复杂性方面呈现差异化挑战。实验既评估了相较于前沿方法的整体检索精度,也通过详细消融研究验证了关键架构创新的独立贡献。
本研究提出DA-MoE这一跨模态图文检索框架,通过集成多种异质专家的混合模型架构,有效规避大规模图文预训练需求,实现预训练模型的互补特征学习。我们提出的动态路由机制不仅实现高效专家选择,还增强模型对多样化输入模式的适应性。差异感知对比学习策略通过聚焦困难样本提升模型判别力。在Flickr30K数据集上,图像到文本检索召回率高达99.4%,文本到图像达95.8%,显著超越现有基线。未来工作将探索更灵活的专家集成范式与多粒度对齐机制。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号