MMICT:利用上下文示例提升多模态微调效果

《ACM Transactions on Multimedia Computing, Communications, and Applications》:MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples

【字体: 时间:2025年11月08日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  多模态上下文微调方法MMICT通过统一模块M-Hub实现视觉-文本跨模态特征交互学习,显著提升多模态大语言模型性能。实验表明MMICT在传统微调方法上表现更优。

  

摘要

尽管上下文学习(ICL)为大型语言模型(LLMs)带来了显著的性能提升,但其改进效果仍低于在下游任务上进行微调的效果。本文介绍了多模态上下文微调(MMICT)这一新型的多模态微调方法,该方法通过充分利用多模态LLMs(MM-LLMs)的强大ICL能力来增强多模态微调的效果。我们提出了多模态枢纽(M-Hub)这一统一模块,它能够根据不同的输入和目标捕捉各种多模态特征。基于M-Hub,MMICT使MM-LLMs能够从上下文相关的视觉引导文本特征中学习,并据此生成相应的输出。此外,利用M-Hub的灵活性,我们设计了多种上下文相关的演示场景。在多种下游多模态任务上的广泛实验表明,MMICT的性能明显优于传统的微调策略以及仅将来自不同模态的所有信息简单串联作为输入的原始ICL方法。我们的实现代码可在以下链接获取:https://github.com/KDEGroup/MMICT。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号