
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向视频问答的双层级动态异质图网络:增强多模态实体与事件推理
【字体: 大 中 小 】 时间:2025年09月13日 来源:Neural Networks 6.3
编辑推荐:
本文针对视频问答(VideoQA)中实体与事件信息不足、多模态对齐困难的挑战,提出了一种双层级动态异质图网络(DDHG)。通过事件与实体增强策略补充多模态语义,结合Transformer捕捉时空动态变化,并在异质图中实现跨模态实体与事件级交互。实验表明,该方法在Causal-VidQA和NExT-QA数据集上显著优于现有模型,展现了强大的事件内容预测与推理能力。
Highlight
近期,视频问答(VideoQA)作为视觉语言理解领域的核心任务受到广泛关注。然而,现有数据集常缺乏细粒度实体与事件信息,导致视觉语言模型(VLMs)难以完成多模态实体或事件间的复杂定位与推理,过度依赖语言捷径或无关视觉上下文。为解决这些问题,我们从数据与模型两个角度进行改进。
METHODOLOGY
我们的双层级动态异质图网络(DDHG)框架如图3所示。本研究假设视频字幕中的词级特征与视频中的物体特征具有等同的实体级语义,而视频帧的表观特征则与句子级字幕特征共享事件级语义。因此,我们首先从实体和事件两个层级对齐视觉与文本特征。
Datasets
NExT-QA
包含4.77万个多选题形式的问答对,源自5.4K个视频,专注于对物体与事件的因果推理(如“为什么”和“如何”类问题),能有效评估模型的多事件与多实体理解能力。
Causal-VidQA
包含10.76万个问答对与2.69万个视频片段,涵盖描述、解释、预测与反事实四种问题类型。
CONCLUSIONS
本文提出了一种用于视频问答的双层级动态异质图网络(DDHG),以解决复杂推理任务。我们认识到充足的文本事件与实体对推理型VideoQA至关重要,因此通过视频帧字幕构建多模态语义关联。此外,我们在异质图中引入Transformer层以捕捉实体与事件的动态时空变化。最终,这些特征通过双层级跨模态交互模块融合,显著提升了模型在复杂事件推理中的性能。
生物通微信公众号
知名企业招聘