融合至双编码器的跨架构蒸馏：FtdBLIP提升图文检索性能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月25日 来源：Neurocomputing 5.5

编辑推荐：

　　为解决双编码器架构在图文检索任务中模态融合能力不足的问题，研究人员提出FtdBLIP方法，通过融合编码器向双编码器的跨架构知识蒸馏（KD），实现高效模态对齐。实验表明，该方法在Flickr30K和MSCOCO数据集上显著提升文本-图像检索性能，同时保留双编码器的速度优势。

在人工智能的跨模态检索领域，图文检索（Image-Text Retrieval, ITR）技术扮演着重要角色，它能够将图像和文本映射到统一空间进行相似性匹配。然而，现有的双编码器（Dual-Encoder）架构虽然计算高效，但其仅依赖特征点积的模态融合方式，效果远不如采用交叉注意力机制的融合编码器（Fusion-Encoder）架构。这一问题在时间敏感的应用场景中尤为突出——用户既需要快速响应，又希望获得高质量的检索结果。

为了解决这一矛盾，东北大学的研究团队以BLIP模型为基准，创新性地提出了FtdBLIP方法。BLIP是一种典型的融合编码器模型，包含视觉编码器和文本编码器，通过交叉注意力模块实现多模态特征深度融合。研究人员设计了两项跨架构蒸馏策略：一是将双编码器的图像-文本嵌入输入融合编码器，利用交叉注意力最后一层生成的相似性图优化原始特征点积图；二是用融合编码器的排序分数指导双编码器的特征相似度计算。这种融合至双编码器的蒸馏（Fusion-to-dual Distillation）技术，成功将融合编码器的强模态融合能力迁移至双编码器。

关键技术包括：1）基于BLIP模型构建双编码器学生模型和融合编码器教师模型；2）设计令牌级相似性蒸馏（Token-level Similarity Distillation）和特征级相似性蒸馏（Feature-level Similarity Distillation）两种策略；3）在Flickr30K和MSCOCO基准数据集上评估模型性能。

研究结果

模型性能对比：FtdBLIP在文本-图像检索任务中显著优于基线模型，在Flickr30K数据集上Recall@1提升达5.2%。
消融实验：验证了两种蒸馏策略的协同作用，特征级蒸馏对小型模型提升更显著。
时间复杂度分析：双编码器架构的检索速度比融合编码器快两个数量级，且蒸馏过程仅增加约15%的训练时间。

讨论与结论
该研究首次实现了视觉语言预训练（VLP）模型中跨架构知识的高效迁移，突破了传统知识蒸馏（KD）局限于同构模型的限制。FtdBLIP的创新性体现在：1）提出基于注意力模式对齐的跨模态知识迁移框架；2）揭示了视觉编码器性能对图文检索任务的关键影响；3）为平衡检索精度与效率提供了新思路。论文发表于《Neurocomputing》，其技术路线可扩展至其他多模态任务，如视频-文本检索和跨模态生成。

研究同时指出，当前方法在超大模型上的蒸馏效率仍有提升空间，未来可探索动态权重分配等优化策略。这项工作由Ziyan Gong和Tianhan Gao合作完成，得到国家自然科学基金（52130403）支持，为多模态人工智能的发展提供了重要方法论参考。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号