基于合成数据增强与混合Transformer的图像描述生成方法SynthCap++研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月22日 来源：Image and Vision Computing 4.2

编辑推荐：

　　本研究针对图像描述生成任务中训练数据不足的问题，提出SynthCap++模型，通过Stable Diffusion生成合成图像并结合Mixup数据增强技术，在COCO数据集上验证了方法的有效性。该研究创新性地将生成式AI与Transformer架构结合，显著提升了模型性能，为跨模态理解领域提供了新思路。

在计算机视觉与多媒体研究领域，图像描述生成（Image Captioning）技术一直面临着数据瓶颈的挑战。现有方法主要依赖大规模真实图像-文本配对数据集，但这类数据获取成本高且存在质量参差不齐的问题。与此同时，生成式AI的快速发展为创造高质量合成数据提供了可能，但如何有效利用这些数据提升模型性能仍待探索。

针对这一关键问题，AIMAGELAB的研究团队开展了创新性研究。他们发现传统数据增强方法如旋转、裁剪等会破坏图像与文本的语义一致性，而单纯使用合成数据训练又会导致模型泛化能力下降。为此，研究人员提出SynthCap++模型，通过Mixup技术将真实图像与Stable Diffusion生成的合成图像在像素层面进行混合，既保留了语义一致性又增强了数据多样性。该成果发表在《Image and Vision Computing》期刊。

研究采用三个关键技术：1）利用Stable Diffusion v1.4生成与COCO数据集标注匹配的合成图像；2）设计基于Beta分布的Mixup策略（α_r=0.9，α_s=0.1）混合真实与合成图像；3）构建CLIP ViT-L/14视觉编码器与Transformer编解码架构。通过对比CutMix、TokenMix等替代方案，验证了Mixup策略的优越性。

研究结果显示：

合成数据有效性验证
CLIP相似度分析表明，合成图像与对应文本的匹配度（0.35）高于真实图像（0.32），证实其作为训练资源的潜力。
Mixup参数优化
当α_r=0.9、α_s=0.1时，模型在COCO测试集上达到129.0的CIDEr分数，较基线提升2.5分，证明适度偏向真实数据的混合策略最优。
跨架构验证
在DINOv2 ViT-L/14、CLIP ViT-B/32等不同视觉编码器上，SynthCap++均保持性能优势，显示方法的普适性。
性能对比
在COCO测试集上，SynthCap++的CIDEr得分达140.1，超越GRIT等先进方法；在线测试服务器评估中，其B-4分数达42.1，验证了实际应用价值。

该研究的突破性在于：首次系统论证了合成数据对图像描述生成任务的增益效应，并提出创新的Mixup混合策略。相比传统数据增强方法，SynthCap++通过语义保持的图像混合，既缓解了过拟合问题，又提升了模型对复杂场景的理解能力。研究还发现，合成图像的高文本对齐特性可弥补真实数据的标注噪声问题，这一发现为跨模态学习提供了新视角。

值得注意的是，研究也揭示了合成数据的局限性：当完全替代真实数据训练时，模型性能显著下降（CIDEr降低15.3分），说明二者具有互补性。此外，Mixup系数的敏感度分析为后续研究提供了重要参考。这些发现对推动生成式AI在视觉-语言任务中的应用具有指导意义，也为解决数据稀缺问题开辟了新途径。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号