融合至双编码器的跨架构蒸馏:FtdBLIP提升图文检索性能

【字体: 时间:2025年06月25日 来源:Neurocomputing 5.5

编辑推荐:

  为解决双编码器架构在图文检索任务中模态融合能力不足的问题,研究人员提出FtdBLIP方法,通过融合编码器向双编码器的跨架构知识蒸馏(KD),实现高效模态对齐。实验表明,该方法在Flickr30K和MSCOCO数据集上显著提升文本-图像检索性能,同时保留双编码器的速度优势。

  

在人工智能的跨模态检索领域,图文检索(Image-Text Retrieval, ITR)技术扮演着重要角色,它能够将图像和文本映射到统一空间进行相似性匹配。然而,现有的双编码器(Dual-Encoder)架构虽然计算高效,但其仅依赖特征点积的模态融合方式,效果远不如采用交叉注意力机制的融合编码器(Fusion-Encoder)架构。这一问题在时间敏感的应用场景中尤为突出——用户既需要快速响应,又希望获得高质量的检索结果。

为了解决这一矛盾,东北大学的研究团队以BLIP模型为基准,创新性地提出了FtdBLIP方法。BLIP是一种典型的融合编码器模型,包含视觉编码器和文本编码器,通过交叉注意力模块实现多模态特征深度融合。研究人员设计了两项跨架构蒸馏策略:一是将双编码器的图像-文本嵌入输入融合编码器,利用交叉注意力最后一层生成的相似性图优化原始特征点积图;二是用融合编码器的排序分数指导双编码器的特征相似度计算。这种融合至双编码器的蒸馏(Fusion-to-dual Distillation)技术,成功将融合编码器的强模态融合能力迁移至双编码器。

关键技术包括:1)基于BLIP模型构建双编码器学生模型和融合编码器教师模型;2)设计令牌级相似性蒸馏(Token-level Similarity Distillation)和特征级相似性蒸馏(Feature-level Similarity Distillation)两种策略;3)在Flickr30K和MSCOCO基准数据集上评估模型性能。

研究结果

  1. 模型性能对比:FtdBLIP在文本-图像检索任务中显著优于基线模型,在Flickr30K数据集上Recall@1提升达5.2%。
  2. 消融实验:验证了两种蒸馏策略的协同作用,特征级蒸馏对小型模型提升更显著。
  3. 时间复杂度分析:双编码器架构的检索速度比融合编码器快两个数量级,且蒸馏过程仅增加约15%的训练时间。

讨论与结论
该研究首次实现了视觉语言预训练(VLP)模型中跨架构知识的高效迁移,突破了传统知识蒸馏(KD)局限于同构模型的限制。FtdBLIP的创新性体现在:1)提出基于注意力模式对齐的跨模态知识迁移框架;2)揭示了视觉编码器性能对图文检索任务的关键影响;3)为平衡检索精度与效率提供了新思路。论文发表于《Neurocomputing》,其技术路线可扩展至其他多模态任务,如视频-文本检索和跨模态生成。

研究同时指出,当前方法在超大模型上的蒸馏效率仍有提升空间,未来可探索动态权重分配等优化策略。这项工作由Ziyan Gong和Tianhan Gao合作完成,得到国家自然科学基金(52130403)支持,为多模态人工智能的发展提供了重要方法论参考。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号