
-
生物通官微
陪你抓住生命科技
跳动的脉搏
融合至双编码器的跨架构蒸馏:FtdBLIP提升图文检索性能
【字体: 大 中 小 】 时间:2025年06月25日 来源:Neurocomputing 5.5
编辑推荐:
为解决双编码器架构在图文检索任务中模态融合能力不足的问题,研究人员提出FtdBLIP方法,通过融合编码器向双编码器的跨架构知识蒸馏(KD),实现高效模态对齐。实验表明,该方法在Flickr30K和MSCOCO数据集上显著提升文本-图像检索性能,同时保留双编码器的速度优势。
在人工智能的跨模态检索领域,图文检索(Image-Text Retrieval, ITR)技术扮演着重要角色,它能够将图像和文本映射到统一空间进行相似性匹配。然而,现有的双编码器(Dual-Encoder)架构虽然计算高效,但其仅依赖特征点积的模态融合方式,效果远不如采用交叉注意力机制的融合编码器(Fusion-Encoder)架构。这一问题在时间敏感的应用场景中尤为突出——用户既需要快速响应,又希望获得高质量的检索结果。
为了解决这一矛盾,东北大学的研究团队以BLIP模型为基准,创新性地提出了FtdBLIP方法。BLIP是一种典型的融合编码器模型,包含视觉编码器和文本编码器,通过交叉注意力模块实现多模态特征深度融合。研究人员设计了两项跨架构蒸馏策略:一是将双编码器的图像-文本嵌入输入融合编码器,利用交叉注意力最后一层生成的相似性图优化原始特征点积图;二是用融合编码器的排序分数指导双编码器的特征相似度计算。这种融合至双编码器的蒸馏(Fusion-to-dual Distillation)技术,成功将融合编码器的强模态融合能力迁移至双编码器。
关键技术包括:1)基于BLIP模型构建双编码器学生模型和融合编码器教师模型;2)设计令牌级相似性蒸馏(Token-level Similarity Distillation)和特征级相似性蒸馏(Feature-level Similarity Distillation)两种策略;3)在Flickr30K和MSCOCO基准数据集上评估模型性能。
研究结果
讨论与结论
该研究首次实现了视觉语言预训练(VLP)模型中跨架构知识的高效迁移,突破了传统知识蒸馏(KD)局限于同构模型的限制。FtdBLIP的创新性体现在:1)提出基于注意力模式对齐的跨模态知识迁移框架;2)揭示了视觉编码器性能对图文检索任务的关键影响;3)为平衡检索精度与效率提供了新思路。论文发表于《Neurocomputing》,其技术路线可扩展至其他多模态任务,如视频-文本检索和跨模态生成。
研究同时指出,当前方法在超大模型上的蒸馏效率仍有提升空间,未来可探索动态权重分配等优化策略。这项工作由Ziyan Gong和Tianhan Gao合作完成,得到国家自然科学基金(52130403)支持,为多模态人工智能的发展提供了重要方法论参考。
生物通微信公众号
知名企业招聘