
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于边缘对偶场景图与消息传递神经网络的语义场景图生成技术研究
【字体: 大 中 小 】 时间:2025年06月03日 来源:Image and Vision Computing 4.2
编辑推荐:
针对现有场景图生成(SGG)方法在复杂关系建模上的局限性,韩国研究团队提出创新性边缘对偶场景图生成框架(EdgeSGG),结合对象-关系中心消息传递神经网络(OR-MPNN),通过对称图结构捕捉非受限对象间的上下文交互。实验表明,该方法在多个SGG子任务中性能显著超越现有技术,并有效缓解长尾分布问题,为视觉关系理解提供新范式。
在计算机视觉领域,理解图像中对象间的复杂关系犹如破解视觉世界的语法规则。随着生成式AI的爆发式发展,场景图生成(Scene Graph Generation, SGG)技术因其能结构化表征图像中对象及其交互关系而备受关注。传统SGG方法将对象作为节点、关系作为边构建二分图,但这种对象中心化范式存在明显缺陷——当描述"公园里骑自行车的人"这类多对象交互场景时,现有方法只能捕捉孤立的二元关系(如<人,骑,自行车>),却无法建模高阶关系(如<骑,自行车,在...里>)。更棘手的是,真实数据中关系类别的长尾分布导致模型严重偏向高频谓词。骑,自行车,在...里>人,骑,自行车>
针对这些挑战,韩国研究人员提出革命性的边缘对偶场景图生成框架(EdgeSGG)。该工作创新性地引入图论中的对偶图概念,将原始场景图中的边(关系)转化为新图的节点,构建具有对称结构的边缘对偶图。配合专门设计的对象-关系中心消息传递神经网络(OR-MPNN),系统能同时学习对象特征和关系特征的上下文表示。这项发表于《Image and Vision Computing》的研究,在Visual Genome等基准测试中全面超越现有技术,尤其在不平衡数据场景下展现出显著优势。
关键技术方法包括:1) 边缘对偶图转换技术,实现关系节点的显式建模;2) OR-MPNN架构,通过双路径消息传递机制分别更新对象中心特征oi∈Rdo和关系中心特征;3) 基于完全连接图的通用性设计,适用于多类图推理任务。实验使用VG数据集108k图像,评估涵盖PredCls、SGCls等6项指标。
研究结果
结论与意义
该研究突破性地将图对偶理论引入视觉关系理解领域,其核心贡献在于:1) 提出首个可建模谓词间关系的EdgeSGG框架,扩展了SGG的理论边界;2) 设计的OR-MPNN通过数学形式化证明能保持排列不变性,为图神经网络设计提供新思路;3) 工程上开源代码完整复现结果,推动领域发展。这项工作不仅为视觉问答、图像生成等下游任务提供更精准的关系先验,其"关系即实体"的哲学思想对认知科学亦有启发意义。未来可探索该框架在三维场景理解、医疗影像分析等领域的迁移应用。
生物通微信公众号
知名企业招聘