基于边缘对偶场景图与消息传递神经网络的语义场景图生成技术研究

【字体: 时间:2025年06月03日 来源:Image and Vision Computing 4.2

编辑推荐:

  针对现有场景图生成(SGG)方法在复杂关系建模上的局限性,韩国研究团队提出创新性边缘对偶场景图生成框架(EdgeSGG),结合对象-关系中心消息传递神经网络(OR-MPNN),通过对称图结构捕捉非受限对象间的上下文交互。实验表明,该方法在多个SGG子任务中性能显著超越现有技术,并有效缓解长尾分布问题,为视觉关系理解提供新范式。

  

在计算机视觉领域,理解图像中对象间的复杂关系犹如破解视觉世界的语法规则。随着生成式AI的爆发式发展,场景图生成(Scene Graph Generation, SGG)技术因其能结构化表征图像中对象及其交互关系而备受关注。传统SGG方法将对象作为节点、关系作为边构建二分图,但这种对象中心化范式存在明显缺陷——当描述"公园里骑自行车的人"这类多对象交互场景时,现有方法只能捕捉孤立的二元关系(如<人,骑,自行车>),却无法建模高阶关系(如<骑,自行车,在...里>)。更棘手的是,真实数据中关系类别的长尾分布导致模型严重偏向高频谓词。

针对这些挑战,韩国研究人员提出革命性的边缘对偶场景图生成框架(EdgeSGG)。该工作创新性地引入图论中的对偶图概念,将原始场景图中的边(关系)转化为新图的节点,构建具有对称结构的边缘对偶图。配合专门设计的对象-关系中心消息传递神经网络(OR-MPNN),系统能同时学习对象特征和关系特征的上下文表示。这项发表于《Image and Vision Computing》的研究,在Visual Genome等基准测试中全面超越现有技术,尤其在不平衡数据场景下展现出显著优势。

关键技术方法包括:1) 边缘对偶图转换技术,实现关系节点的显式建模;2) OR-MPNN架构,通过双路径消息传递机制分别更新对象中心特征oi∈Rdo和关系中心特征;3) 基于完全连接图的通用性设计,适用于多类图推理任务。实验使用VG数据集108k图像,评估涵盖PredCls、SGCls等6项指标。

研究结果

  1. 边缘对偶图的有效性:通过将谓词转化为节点,新框架能建模<骑,自行车,在...里>这类高阶关系,在VG数据集上关系检测准确率提升12.7%。
  2. OR-MPNN的优越性:相比传统MPNN,双路径特征学习使细粒度关系预测F1值提高9.3%,验证了对象与关系特征协同学习的重要性。
  3. 长尾问题缓解:在出现频率<100次的稀有谓词类别上,召回率相对提升达35%,证明关系中心化策略能有效平衡数据偏差。
  4. 跨任务通用性:在SGDet子任务中,mR@50指标达到16.8,较BGNN基线提升4.2个点,显示方法对检测-推理联合任务的适应性。

结论与意义
该研究突破性地将图对偶理论引入视觉关系理解领域,其核心贡献在于:1) 提出首个可建模谓词间关系的EdgeSGG框架,扩展了SGG的理论边界;2) 设计的OR-MPNN通过数学形式化证明能保持排列不变性,为图神经网络设计提供新思路;3) 工程上开源代码完整复现结果,推动领域发展。这项工作不仅为视觉问答、图像生成等下游任务提供更精准的关系先验,其"关系即实体"的哲学思想对认知科学亦有启发意义。未来可探索该框架在三维场景理解、医疗影像分析等领域的迁移应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号