
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向细粒度多模态控制的图像描述生成:MCoCa数据集与MCIC模型创新研究
【字体: 大 中 小 】 时间:2025年09月06日 来源:Pattern Recognition 7.6
编辑推荐:
本文提出多模态可控图像描述生成框架(MCIC),通过构建包含97万样本的MCoCa数据集(含21种视觉-文本控制信号),在指令微调的多模态大语言模型(MLLM)基础上开发视觉/文本适配器,实现区域理解与风格控制的协同优化。创新性提出Visual-CIDEr(VCIDEr)评估指标,在SentiCap/FlickrStyle10K基准测试中零样本性能超越传统可控描述模型(CIC)。
Highlight
• 首创统一视觉-文本可控描述基准MCoCa数据集,包含大规模控制标注与多样化信号组合
• 基于MLLM开发多模态可控图像描述模型(MCIC),通过设计视觉-文本指令实现细粒度控制
• 实验验证模型在保真度、多控制泛化能力方面显著优于基线CIC模型
Related Work
图像描述生成(Image Captioning)作为多模态学习基础任务,传统方法多在编码器-解码器框架下采用自回归模型。为提升描述多样性,Li等提出多模态混合增强方法,通过丰富训练数据视觉特征聚焦能力,生成兼具多样性和准确性的描述。
The MCoCa Dataset
我们推出首个大规模多模态可控描述数据集MCoCa,包含两种视觉控制(点/框标注)和21种文本控制(情感/语言/长度/幽默浪漫等风格)。通过GPT-3.5语言重写能力构建,涵盖10.8万图像与97.8万区域标注,其验证集/测试集各含1000张图像。
Methodology
如图4所示,我们在最强MLLM之一InstructBLIP基础上,将数据集样本转化为指令-响应对进行指令微调。通过新设计的视觉/文本适配器(见表4指令模板),使模型具备组合式多模态控制能力,同时保持原始图像理解性能。
Datasets
• MCoCa:含108,077张图像与977,798个区域标注,训练集106,077张,验证/测试集各1000张
• SentiCap:MSCOCO子集,含673张正向/503张负向情感测试图像
• FlickrStyle10K:提供幽默/浪漫两种风格描述
Conclusion
本文提出的MCoCa数据集突破了传统可控描述数据集单信号限制,通过21种文本控制与视觉标注的组合,为多模态可控描述研究建立新基准。配套开发的MCIC模型展现出卓越的零样本迁移能力,为医疗影像辅助诊断等需要精准区域描述的领域提供新范式。
生物通微信公众号
知名企业招聘