通过学习候选调整器来提升半监督视频字幕生成的效果
《ACM Transactions on Multimedia Computing, Communications, and Applications》:Boosting Semi-Supervised Video Captioning via Learning Candidates Adjusters
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
本文提出基于LCA增强的半监督视频标注模型,通过可学习的候选调整器优化字幕候选,并将调整后的结果作为伪标签训练模型,采用类似EM算法的多阶段训练策略,在有限标注数据下显著提升性能,实验表明优于多数全监督方法。
摘要
视频字幕生成是一项同时涉及计算机视觉(CV)和自然语言处理(NLP)的多模态任务,其目标是通过自然语言语句自动获取视频内容的描述。尽管存在大量的视频数据,但带有描述句子的注释却非常有限。在本文中,我们提出了半监督视频字幕生成(SSVC)问题,旨在通过利用标注良好的样本和未标注样本的语义知识来提高在注释较少情况下的性能。为了解决这个问题,我们引入了一种基于LCA(学习性候选调整器,Learningable Candidate Adjuster)的模型(LCABM)来提升SSVC的效果。该模型首先探索了一个可学习的候选调整器来优化字幕候选项,然后将这些经过调整的字幕作为伪标签,利用未标注样本反向训练SSVC模型。具体而言,模型学习被视为一个双层优化问题,并通过类似EM(期望最大化,Expectation Maximization)的多阶段训练算法来解决。实验表明,我们提出的LCABM具有很好的效果,其性能与现有的全监督方法相当,甚至在注释更少的情况下表现更优。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号