场景文本视频描述生成:基于动态文本线索的多模态视频语义理解新范式

【字体: 时间:2025年06月06日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对现有视频描述生成方法忽略场景文本信息的问题,研究者提出首个场景文本视频描述任务(Scene Text Video Captioning),构建ST-Caps数据集并开发STVD模型。该工作通过指针网络和层次对比机制动态整合OCR文本,在电商场景视频中实现细粒度描述生成,为多模态理解提供新范式。

  

在短视频爆发式增长的时代,准确理解视频内容成为人工智能领域的核心挑战。传统视频描述生成(Video Captioning)方法主要依赖视觉特征建模时空关系,却忽视了视频中大量存在的场景文本(Scene Text)——如商品标签、背景广告、艺术字幕等富含语义的视觉文字。这些文本往往包含关键属性信息,例如"重庆小面"的品牌名称或"麻辣"的口味描述,仅凭像素特征难以捕捉。尽管文本图像描述(Text-based Image Captioning)已取得进展,但视频中动态文本与物体的复杂时空关联、短视频多镜头切换等特性,使得场景文本视频描述(Scene Text Video Captioning)成为亟待解决的新问题。

针对这一挑战,浙江大学的研究团队在《Expert Systems with Applications》发表研究,首次系统性地构建了ST-Caps数据集——包含20,715个电商场景视频和82,000条人工标注描述,并提出创新性场景文本视频描述模型(STVD)。该工作通过同构/异构图变换器编码多模态特征,结合层次对比指针网络动态整合OCR文本,在细粒度视频理解方面取得突破。实验表明STVD在BLEU、ROUGE-L等指标上达到最优性能,生成的描述能准确反映"亲肤面料"等商品特性。

关键技术方法包括:1)从电商平台采集视频并采用OCR技术提取场景文本构建ST-Caps数据集;2)设计双分支图编码器,分别用同构图建模帧/对象关系,异构图实现跨模态对齐;3)开发层次对比指针网络,通过模态级/时序级约束优化文本融合;4)引入场景交互编码器聚类语义相关帧。

【ST-Caps数据集】
研究团队从电商平台收集视频,确保每段视频包含可检测的场景文本。数据集统计分析显示,短视频中平均每个视频出现5.2个语义显著的OCR文本,涵盖品牌、属性、功能等维度。与MSVD等传统数据集相比,ST-Caps首次系统标注了文本-视觉关联,为细粒度理解提供基准。

【方法设计】
STVD模型架构包含两大创新模块:1)视频编码器采用同构-异构图变换器,分别构建帧图和对象图两个同构图,通过异构图实现跨模态交互;2)生成器采用指针网络动态选择OCR词汇,配合层次对比损失函数,在模态维度约束视觉-文本表征对齐,在时序维度保持文本连续性。

【实验结果】
在ST-Caps上的对比实验显示,STVD的CIDEr分数较传统方法提升23.6%,文本召回率提高18.4%。可视化分析表明,模型能准确关联"Chongqing's small noodles"等品牌文本与对应画面。消融实验验证了图编码器和对比损失的有效性,其中异构图结构对性能贡献最大。

该研究开创性地将场景文本引入视频理解领域,其重要意义体现在三方面:首先,ST-Caps填补了文本感知视频描述数据集的空白;其次,STVD提出的层次对比机制为多模态融合提供新思路;最后,针对短视频场景切换的建模方法,为电商、教育等垂直领域的内容理解树立了技术标杆。正如通讯作者Zhimeng Zhang强调,这项研究"使AI系统真正读懂视频中的文字信息",为构建具身智能(Embodied AI)奠定了基础。未来工作可探索跨语言场景文本理解,进一步拓展多模态学习的边界。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号