通过学习候选调整器来提升半监督视频字幕生成的效果

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：Boosting Semi-Supervised Video Captioning via Learning Candidates Adjusters

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　本文提出基于LCA增强的半监督视频标注模型，通过可学习的候选调整器优化字幕候选，并将调整后的结果作为伪标签训练模型，采用类似EM算法的多阶段训练策略，在有限标注数据下显著提升性能，实验表明优于多数全监督方法。

摘要

视频字幕生成是一项同时涉及计算机视觉（CV）和自然语言处理（NLP）的多模态任务，其目标是通过自然语言语句自动获取视频内容的描述。尽管存在大量的视频数据，但带有描述句子的注释却非常有限。在本文中，我们提出了半监督视频字幕生成（SSVC）问题，旨在通过利用标注良好的样本和未标注样本的语义知识来提高在注释较少情况下的性能。为了解决这个问题，我们引入了一种基于LCA（学习性候选调整器，Learningable Candidate Adjuster）的模型（LCABM）来提升SSVC的效果。该模型首先探索了一个可学习的候选调整器来优化字幕候选项，然后将这些经过调整的字幕作为伪标签，利用未标注样本反向训练SSVC模型。具体而言，模型学习被视为一个双层优化问题，并通过类似EM（期望最大化，Expectation Maximization）的多阶段训练算法来解决。实验表明，我们提出的LCABM具有很好的效果，其性能与现有的全监督方法相当，甚至在注释更少的情况下表现更优。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号