
-
生物通官微
陪你抓住生命科技
跳动的脉搏
INQUIRER:基于内部知识图谱的视频问题生成框架及其在视频问答性能提升中的应用
【字体: 大 中 小 】 时间:2025年07月08日 来源:Knowledge-Based Systems 7.2
编辑推荐:
本研究针对现有视频问题生成(VideoQG)方法过度依赖预设答案导致语义多样性不足的问题,提出INQUIRER框架,通过构建视频内部知识图谱(KCon)、基于LLM的问题生成(QGen)和基于困惑度的质量筛选(QCur)三阶段流程,在DramaQA等四个基准数据集上实现问题-答案对的高质量生成,显著提升VideoQA模型性能1.2-1.58%,为视频理解任务提供了认知启发的解决方案。
在人工智能领域,视频理解一直是个充满挑战的研究方向。人类观看视频时会自然产生各种问题,这种认知过程帮助深化理解,但现有AI系统却主要停留在被动回答问题的阶段。更关键的是,当前视频问题生成方法大多依赖预设答案或外部知识库,导致生成的问题范围狭窄,难以触及角色意图、事件因果等深层叙事元素,与人类自然提问的丰富性相去甚远。
针对这一现状,研究人员开发了名为INQUIRER的创新框架。该研究首次将内部知识图谱引入视频问题生成领域,通过模拟人类知识组织和检索机制,实现了从基础事实识别到复杂因果推理的多层次问题生成。论文发表在《Knowledge-Based Systems》期刊,展示了该方法在提升视频问答系统性能方面的显著效果。
研究采用三项核心技术:知识图谱构建模块(KCon)通过LLM将视频信息转化为结构化表示;问题生成模块(QGen)结合Graesser提出的18类问题分类法生成多样化问题;质量筛选模块(QCur)基于困惑度(PPL)指标保留前87.5%的高质量输出。实验使用DramaQA等四个主流VideoQA基准数据集,样本涵盖电视剧、教学视频等不同类型。
研究结果部分,层次化知识图谱构建部分显示,在DramaQA数据集上,采用剧集-场景-镜头三级知识图谱训练模型后,场景级问题回答准确率提升达16.6%。跨数据集比较实验证实,INQUIRER生成的问题-答案对使Flipped-VQA模型在TVQA等数据集上平均提升1%,ViLA模型提升0.63%。特别值得注意的是,人类评估结果显示INQUIRER生成的问题在78.7%的案例中被认为优于基线方法。
问题类型分布分析揭示,该方法能自适应不同视频类型生成侧重不同认知维度的问题:电视剧内容中目标导向型问题占41.9%,教学视频中流程性问题占32.1%,真实场景视频中因果后果类问题占25.7%,充分体现了框架的领域适应性。质量过滤机制的有效性通过消融实验得到验证,当保留比例从50%提升至87.5%时,模型性能呈现单调递增趋势。
讨论部分指出,虽然当前工作主要聚焦电视剧内容,但提出的知识图谱驱动方法为视频理解开辟了新途径。研究存在的局限性包括LLM可能引入的偏差,以及在非叙事类视频(如体育视频)中的适用性有待验证。未来方向包括将INQUIRER发展为"学习-提问"范式,使AI系统能像人类一样通过迭代提问扩展知识。
这项研究的重要意义在于,首次将认知科学中的问题分类体系与知识图谱表示相结合,为视频理解提供了新范式。不仅减轻了人工标注负担,更重要的是使AI系统的问题生成能力向人类认知水平迈进了一步,为人机交互中的自然问答奠定了基础。框架的扩展应用可能影响视频检索、自动摘要等多个相关领域。
生物通微信公众号
知名企业招聘