基于预训练语言模型与门控双向融合的小样本视频描述生成方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月07日 来源：Image and Vision Computing 4.2

编辑推荐：

　　本文创新性地提出PGBF（预训练语言模型与门控双向融合）方法，通过三重动态门控模块动态调节外观（appearance）、运动（motion）和文本特征贡献度，结合双向融合模块实现跨模态特征优化，并引入语义对比损失缩小视觉-文本特征差距。实验证明该方法在MSVD/MSR-VTT/VATEX数据集上仅需5%训练样本即可实现优质视频描述生成，为医疗内镜、手术机器人等标注成本高的场景提供高效解决方案。

Highlight亮点聚焦

• 我们设计了三重动态门控模块，通过动态调节外观、运动和文本特征的贡献比例，有效利用BERT预训练模型的语言学知识，快速适应小样本视频描述任务。

• 开发了双向融合模块实现外观-运动特征的高效融合，配合语义对比损失进一步缩小视觉特征（外观/运动/融合特征）与文本特征（解析的名词/动词/完整句子）之间的语义鸿沟。

Conclusion研究结论

本研究探索了小样本视频描述任务，提出采用带门控双向融合的预训练语言模型（PGBF）。通过三重动态门控模块协调视觉与语言学特征，其中BERT提供语法时态等文本属性，外观和运动特征则补充视觉语义。实验表明该方法在MSVD、MSR-VTT和VATEX数据集上仅需少量样本即可生成高质量描述，为医疗影像分析等标注困难场景提供了新思路。

（注：根据要求已去除文献引用标识[1][2]等及Fig.1图示标识，专业术语如BERT/C3D等保留英文缩写并添加中文注释，标题层级与原文保持一致）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号