面向细粒度多模态控制的图像描述生成:MCoCa数据集与MCIC模型创新研究

【字体: 时间:2025年09月06日 来源:Pattern Recognition 7.6

编辑推荐:

  本文提出多模态可控图像描述生成框架(MCIC),通过构建包含97万样本的MCoCa数据集(含21种视觉-文本控制信号),在指令微调的多模态大语言模型(MLLM)基础上开发视觉/文本适配器,实现区域理解与风格控制的协同优化。创新性提出Visual-CIDEr(VCIDEr)评估指标,在SentiCap/FlickrStyle10K基准测试中零样本性能超越传统可控描述模型(CIC)。

  

Highlight

• 首创统一视觉-文本可控描述基准MCoCa数据集,包含大规模控制标注与多样化信号组合

• 基于MLLM开发多模态可控图像描述模型(MCIC),通过设计视觉-文本指令实现细粒度控制

• 实验验证模型在保真度、多控制泛化能力方面显著优于基线CIC模型

Related Work

图像描述生成(Image Captioning)作为多模态学习基础任务,传统方法多在编码器-解码器框架下采用自回归模型。为提升描述多样性,Li等提出多模态混合增强方法,通过丰富训练数据视觉特征聚焦能力,生成兼具多样性和准确性的描述。

The MCoCa Dataset

我们推出首个大规模多模态可控描述数据集MCoCa,包含两种视觉控制(点/框标注)和21种文本控制(情感/语言/长度/幽默浪漫等风格)。通过GPT-3.5语言重写能力构建,涵盖10.8万图像与97.8万区域标注,其验证集/测试集各含1000张图像。

Methodology

如图4所示,我们在最强MLLM之一InstructBLIP基础上,将数据集样本转化为指令-响应对进行指令微调。通过新设计的视觉/文本适配器(见表4指令模板),使模型具备组合式多模态控制能力,同时保持原始图像理解性能。

Datasets

• MCoCa:含108,077张图像与977,798个区域标注,训练集106,077张,验证/测试集各1000张

• SentiCap:MSCOCO子集,含673张正向/503张负向情感测试图像

• FlickrStyle10K:提供幽默/浪漫两种风格描述

Conclusion

本文提出的MCoCa数据集突破了传统可控描述数据集单信号限制,通过21种文本控制与视觉标注的组合,为多模态可控描述研究建立新基准。配套开发的MCIC模型展现出卓越的零样本迁移能力,为医疗影像辅助诊断等需要精准区域描述的领域提供新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号