空间知识图谱引导的多模态合成

《Artificial Life》:Spatial Knowledge Graph-Guided Multimodal Synthesis

【字体: 时间:2025年11月22日 来源:Artificial Life 1.5

编辑推荐:

  空间知识图谱驱动的多模态数据合成方法提升模型时空感知能力,通过自动化构建空间知识图谱指导扩散模型生成图像与MLLM生成文本描述的协同合成,解决人工标注数据局限性,实验验证有效增强模型空间推理能力

  

摘要:

多模态大型语言模型(MLLMs)的最新进展显著提升了它们的能力;然而,它们的空间感知能力仍然是一个显著的局限。为了解决这一挑战,多模态数据合成提供了一个有前景的解决方案。然而,确保合成数据符合空间常识并非易事。我们的方法通过提供一个系统化的框架来生成空间上连贯的数据,从而弥补了这一关键缺口。在这项工作中,我们介绍了SKG2DATA,这是一种由空间知识图谱引导的新型多模态合成方法,该方法基于“从知识到数据生成”的概念。SKG2DATA采用自动化流程构建空间知识图谱(SKG),有效捕捉了类似人类的空间认知能力,包括方向和距离关系。这些结构化的表示为我们的集成合成流程提供了精确的指导:扩散模型生成空间上一致的图像,而MLLM生成相应的文本描述。SKG的自动化构建使得能够生成多样化且逼真的空间配置,克服了手动数据收集和注释的局限性。大量实验表明,从不同类型的空间知识(包括方向和距离)中合成的数据显著增强了MLLM的空间感知和推理能力,尽管这会对它们的整体能力产生轻微影响。我们希望基于知识的数据合成理念能够推动空间智能的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号