MMICT：利用上下文示例提升多模态微调效果

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　多模态上下文微调方法MMICT通过统一模块M-Hub实现视觉-文本跨模态特征交互学习，显著提升多模态大语言模型性能。实验表明MMICT在传统微调方法上表现更优。

摘要

尽管上下文学习（ICL）为大型语言模型（LLMs）带来了显著的性能提升，但其改进效果仍低于在下游任务上进行微调的效果。本文介绍了多模态上下文微调（MMICT）这一新型的多模态微调方法，该方法通过充分利用多模态LLMs（MM-LLMs）的强大ICL能力来增强多模态微调的效果。我们提出了多模态枢纽（M-Hub）这一统一模块，它能够根据不同的输入和目标捕捉各种多模态特征。基于M-Hub，MMICT使MM-LLMs能够从上下文相关的视觉引导文本特征中学习，并据此生成相应的输出。此外，利用M-Hub的灵活性，我们设计了多种上下文相关的演示场景。在多种下游多模态任务上的广泛实验表明，MMICT的性能明显优于传统的微调策略以及仅将来自不同模态的所有信息简单串联作为输入的原始ICL方法。我们的实现代码可在以下链接获取：https://github.com/KDEGroup/MMICT。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号