面向细粒度多模态控制的图像描述生成：MCoCa数据集与MCIC模型创新研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月06日 来源：Pattern Recognition 7.6

编辑推荐：

　　本文提出多模态可控图像描述生成框架(MCIC)，通过构建包含97万样本的MCoCa数据集（含21种视觉-文本控制信号），在指令微调的多模态大语言模型(MLLM)基础上开发视觉/文本适配器，实现区域理解与风格控制的协同优化。创新性提出Visual-CIDEr(VCIDEr)评估指标，在SentiCap/FlickrStyle10K基准测试中零样本性能超越传统可控描述模型(CIC)。

Highlight

• 首创统一视觉-文本可控描述基准MCoCa数据集，包含大规模控制标注与多样化信号组合

• 基于MLLM开发多模态可控图像描述模型(MCIC)，通过设计视觉-文本指令实现细粒度控制

• 实验验证模型在保真度、多控制泛化能力方面显著优于基线CIC模型

Related Work

图像描述生成(Image Captioning)作为多模态学习基础任务，传统方法多在编码器-解码器框架下采用自回归模型。为提升描述多样性，Li等提出多模态混合增强方法，通过丰富训练数据视觉特征聚焦能力，生成兼具多样性和准确性的描述。

The MCoCa Dataset

我们推出首个大规模多模态可控描述数据集MCoCa，包含两种视觉控制（点/框标注）和21种文本控制（情感/语言/长度/幽默浪漫等风格）。通过GPT-3.5语言重写能力构建，涵盖10.8万图像与97.8万区域标注，其验证集/测试集各含1000张图像。

Methodology

如图4所示，我们在最强MLLM之一InstructBLIP基础上，将数据集样本转化为指令-响应对进行指令微调。通过新设计的视觉/文本适配器（见表4指令模板），使模型具备组合式多模态控制能力，同时保持原始图像理解性能。

Datasets

• MCoCa：含108,077张图像与977,798个区域标注，训练集106,077张，验证/测试集各1000张

• SentiCap：MSCOCO子集，含673张正向/503张负向情感测试图像

• FlickrStyle10K：提供幽默/浪漫两种风格描述

Conclusion

本文提出的MCoCa数据集突破了传统可控描述数据集单信号限制，通过21种文本控制与视觉标注的组合，为多模态可控描述研究建立新基准。配套开发的MCIC模型展现出卓越的零样本迁移能力，为医疗影像辅助诊断等需要精准区域描述的领域提供新范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号