
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于提示的弱监督视觉语言预训练:利用大语言模型生成描述实现跨模态学习新范式
【字体: 大 中 小 】 时间:2025年07月11日 来源:Pattern Recognition Letters 3.9
编辑推荐:
为解决传统视觉语言预训练(VLP)依赖密集跨模态标注数据的问题,研究人员开展基于提示的弱监督视觉语言预训练(W-VLP)研究,通过大语言模型(LLM)生成图像类别描述替代对象检测器(OD),结合知识蒸馏和检索增强技术,在MSCOCO和Flickr30K数据集上文本到图像检索任务Recall@1指标分别相对提升17.7%和11.25%,为资源受限场景下的跨模态学习提供新思路。
在人工智能领域,视觉语言预训练(Vision-Language Pre-training, VLP)已成为实现图像与文本跨模态理解的关键技术。传统VLP方法依赖于海量精准标注的图像-文本对,例如每张图片需要配以人工撰写的详细描述,这种强监督学习模式在医疗影像分析、自动驾驶等专业领域面临巨大挑战——获取高质量标注数据不仅成本高昂,在缺乏专业知识的场景下甚至难以实现。更棘手的是,现有弱监督视觉语言预训练(Weakly-supervised VLP, W-VLP)仍无法摆脱对预训练对象检测器(Object Detector, OD)的依赖,而OD本身的训练又需要大量包含物体级标注(如边界框和类别标签)的数据,形成了一种"先有鸡还是先有蛋"的困境。
针对这一核心矛盾,研究人员创新性地提出"提示循环"(Prompts-in-The-Loop, PiTL)框架,通过大语言模型(Large Language Model, LLM)生成的语义描述替代传统OD输出的物体标签,将所需监督信号从物体级降维至图像级——每张图片仅需一个类别标签即可启动跨模态学习。这种方法巧妙地利用GPT-3等LLM的常识推理能力:当输入"狗"这个类别标签时,LLM能自动生成"一只金毛犬在草地上追逐飞盘"等富含空间关系和物体属性的描述,这些文本既包含OD能提供的物体信息,又补充了OD难以捕捉的语义关联。
技术路线上,研究团队采用两阶段预训练策略应对LLM生成噪声的挑战:第一阶段通过教师-学生框架进行知识蒸馏(Knowledge Distillation),使用冻结参数的教师模型为动态更新的学生模型提供稳定监督信号;第二阶段引入检索增强(Retrieval-Augmented)技术,从CC12M等大规模语料库中检索语义相近的文本片段,与LLM生成描述共同构成多模态编码器的训练素材。模型架构采用统一的文本编码器与多模态编码器设计,通过对比学习(Contrastive Learning)拉近相同类别图像-文本对的嵌入距离,同时推远不同类别样本的相似度。
数据构建方法
通过设计特定提示模板引导LLM生成图像描述,如"描述一张包含[类别]的典型场景",产生的文本涵盖物体属性、空间关系和场景上下文。相较于传统OD仅能输出离散物体标签,这种方法能生成"夕阳下成群火烈鸟在湖面栖息"等富有画面感的描述。
两阶段预训练
第一阶段使用LLM生成的纯描述数据进行跨模态对齐,第二阶段混合检索获得的真实图像描述(如Flickr30K的众包标注)增强数据多样性。实验表明这种组合使模型在噪声环境中保持鲁棒性,MSCOCO数据集上文本到图像检索Recall@1达到58.3%,显著优于VLMixer等基线模型。
多任务验证
除跨模态检索外,模型在视觉推理(NLVR2)、视觉问答(VQA)等任务中表现优异。在视觉蕴涵(Visual Entailment)任务中,通过分析图像与文本的逻辑一致性,准确率较RELIT提升9.8%,证明LLM生成的知识能有效迁移至复杂推理场景。
这项研究的突破性在于重新定义了弱监督VLP的可行性边界:仅凭图像级标签和LLM的常识推理,就能构建具有强泛化能力的多模态模型。该方法为医学影像分析等专业领域带来曙光——放射科图片只需标注"肺炎"等大类标签,无需专家详细描述病变特征,即可训练出能理解影像报告的AI系统。研究团队在讨论部分指出,未来通过迭代优化提示工程和引入领域特定的LLM,有望在保持弱监督优势的同时逼近强监督VLP的性能天花板,这对推动多模态AI在资源受限场景的落地应用具有里程碑意义。
生物通微信公众号
知名企业招聘