
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于合成数据增强与混合Transformer的图像描述生成方法SynthCap++研究
【字体: 大 中 小 】 时间:2025年07月22日 来源:Image and Vision Computing 4.2
编辑推荐:
本研究针对图像描述生成任务中训练数据不足的问题,提出SynthCap++模型,通过Stable Diffusion生成合成图像并结合Mixup数据增强技术,在COCO数据集上验证了方法的有效性。该研究创新性地将生成式AI与Transformer架构结合,显著提升了模型性能,为跨模态理解领域提供了新思路。
在计算机视觉与多媒体研究领域,图像描述生成(Image Captioning)技术一直面临着数据瓶颈的挑战。现有方法主要依赖大规模真实图像-文本配对数据集,但这类数据获取成本高且存在质量参差不齐的问题。与此同时,生成式AI的快速发展为创造高质量合成数据提供了可能,但如何有效利用这些数据提升模型性能仍待探索。
针对这一关键问题,AIMAGELAB的研究团队开展了创新性研究。他们发现传统数据增强方法如旋转、裁剪等会破坏图像与文本的语义一致性,而单纯使用合成数据训练又会导致模型泛化能力下降。为此,研究人员提出SynthCap++模型,通过Mixup技术将真实图像与Stable Diffusion生成的合成图像在像素层面进行混合,既保留了语义一致性又增强了数据多样性。该成果发表在《Image and Vision Computing》期刊。
研究采用三个关键技术:1)利用Stable Diffusion v1.4生成与COCO数据集标注匹配的合成图像;2)设计基于Beta分布的Mixup策略(αr=0.9,αs=0.1)混合真实与合成图像;3)构建CLIP ViT-L/14视觉编码器与Transformer编解码架构。通过对比CutMix、TokenMix等替代方案,验证了Mixup策略的优越性。
研究结果显示:
合成数据有效性验证
CLIP相似度分析表明,合成图像与对应文本的匹配度(0.35)高于真实图像(0.32),证实其作为训练资源的潜力。
Mixup参数优化
当αr=0.9、αs=0.1时,模型在COCO测试集上达到129.0的CIDEr分数,较基线提升2.5分,证明适度偏向真实数据的混合策略最优。
跨架构验证
在DINOv2 ViT-L/14、CLIP ViT-B/32等不同视觉编码器上,SynthCap++均保持性能优势,显示方法的普适性。
性能对比
在COCO测试集上,SynthCap++的CIDEr得分达140.1,超越GRIT等先进方法;在线测试服务器评估中,其B-4分数达42.1,验证了实际应用价值。
该研究的突破性在于:首次系统论证了合成数据对图像描述生成任务的增益效应,并提出创新的Mixup混合策略。相比传统数据增强方法,SynthCap++通过语义保持的图像混合,既缓解了过拟合问题,又提升了模型对复杂场景的理解能力。研究还发现,合成图像的高文本对齐特性可弥补真实数据的标注噪声问题,这一发现为跨模态学习提供了新视角。
值得注意的是,研究也揭示了合成数据的局限性:当完全替代真实数据训练时,模型性能显著下降(CIDEr降低15.3分),说明二者具有互补性。此外,Mixup系数的敏感度分析为后续研究提供了重要参考。这些发现对推动生成式AI在视觉-语言任务中的应用具有指导意义,也为解决数据稀缺问题开辟了新途径。
生物通微信公众号
知名企业招聘