DGTM:开启全景场景图生成新篇,大幅提升精度与全面性

【字体: 时间:2025年04月22日 来源:Array 2.7

编辑推荐:

  在计算机视觉领域,全景场景图生成(PSG)面临诸多挑战,如现有模型复杂、参数多等。研究人员开展 DGTM(Deriving Graph from transformer with Mamba)相关研究,结果显示 DGTM 在 mR@20、mR@50 和 mR@100 等指标上有显著提升,为 PSG 研究提供新思路。

  在神奇的计算机视觉世界里,场景图生成(Scene Graph Generation,SGG)就像是给图像赋予了 “智慧大脑”,它能把图像中的各种元素,像人物、物体等识别出来,并梳理清楚它们之间的关系,比如谁在谁的旁边,谁拿着什么东西。这一技术在图像理解、视觉问答等好多方面都发挥着关键作用。而全景场景图生成(Panoptic Scene Graph Generation,PSG)更是在 SGG 的基础上更进一步,它通过复杂的全景分割,让模型对图像的理解更加深入,不仅能精准识别物体,还能清晰把握物体和背景的关系,为我们呈现出更全面、细致的场景信息。
然而,PSG 的发展并非一帆风顺。传统的 PSG 模型存在不少问题,就像笨重的 “大机器”。两阶段模型虽然按部就班地进行物体检测和关系预测,但计算成本高得惊人,而且物体检测阶段一旦出现错误,就像多米诺骨牌一样,会影响后续的关系预测,导致整个系统的性能大打折扣。单阶段模型虽然尝试同时进行物体检测和关系预测,但也各有弊端,有的需要复杂的模块来整合信息,有的会忽略一些重要的关系,还有的对复杂场景的理解过于简单。

为了解决这些棘手的问题,研究人员开启了一场探索之旅。他们开展了关于 DGTM(Deriving Graph from transformer with Mamba)的研究。研究结果令人惊喜,DGTM 在关键性能指标上表现出色,在 PSG 数据集上,相比基线模型,它在 mR@20、mR@50 和 mR@100 等指标上分别实现了至少 25%、15% 和 15% 的提升,这意味着它在场景理解和关系推理方面有了质的飞跃,为 PSG 研究开辟了新的方向。该研究成果意义重大,为后续相关领域的研究奠定了坚实基础,也为智能机器人、自动驾驶、增强现实等应用场景带来了新的可能。

研究人员在开展研究时,主要用到了以下几个关键技术方法:

  1. 基于 Transformer 的架构:利用 Transformer 的自注意力机制,特别是在对象检测中,将查询和键分别视为主体和对象,以此来提取对象之间的关系信息。
  2. Mamba 模块:引入 Mamba 模块,高效地整合多级别和多尺度的特征信息,帮助模型更好地捕捉复杂的关系。
  3. Kolmogorov–Arnold 网络(KAN):采用 KAN 来区分主体和对象,通过独特的结构设计,丰富特征表示,提升模型性能。

下面让我们来详细看看研究结果:

  1. 问题定义:PSG 任务旨在生成能有效表示图像中物体及其关系的场景图,每个物体由全景分割得到的精细掩码表示。模型需要预测物体之间、物体与背景之间的关系,通过特定的匹配算法和损失函数来优化模型性能。
  2. DGTM:从 Transformer 中派生图并结合 Mamba:DGTM 是一种全新的轻量级关系提取器,它巧妙地利用 Transformer 解码器的自注意力机制,将注意力权重转化为关系信息。通过引入 KAN 作为类型标识符,更好地区分主体和对象特征。同时,使用 Mamba 模块处理信息,并通过门控机制融合各层信息,最终提取出关系图,还为后续任务提供指导。
  3. 实验
    • PSG 数据集:该数据集整合了 COCO 和 Visual Genome 数据集,包含 49,000 张标注图像,采用 COCO 的 80 类物体标注系统和精心挑选的 56 个关系谓词类别,为模型训练提供了丰富且高质量的数据。
    • 指标:PSG 任务包含谓词分类(Predicate Classification,PredCls)和场景图生成(Scene Graph Generation,SGDet)两个子任务,分别用不同方式评估。评估指标包括 Recall@K(R@K)和平均 Recall@K(mR@K),用于衡量关系预测的准确性;在全景分割中,使用全景质量(Panoptic Quality,PQ)指标评估模型性能。
    • 实施细节:以 ResNet-50 为骨干网络,使用 DETR 和 Mask2Former 作为探测器,在特定的云平台上进行训练。设置解码器查询数量、损失函数权重等参数,以优化模型训练。
    • 实验结果:在 PSG 数据集上,以 DETR 或 Mask2Former 为探测器时,DGTM 在 mR@20、mR@50 和 mR@100 指标上均显著优于 PSGTR,表明其在复杂场景理解方面的有效性;但在 R@20、R@50 和 R@100 指标上,PSGTR 表现更优。
    • 讨论:DGTM 在 mR@Recall 指标上有提升,但在 R@Recall 指标上存在不足。可能原因是训练时 GPU 资源不足影响稳定性,以及模型分割能力限制了其生成三元组的性能。同时,实验证明 KAN 实体标记模块能显著提升 DGTM 模型性能。


研究结论和讨论部分指出,DGTM 通过先进的图像理解技术,大幅提升了生成场景图的精度和全面性。虽然目前存在一些问题,但这一研究为场景图生成任务提供了新的思路和方法。未来研究可从算法优化、拓展复杂场景应用、探索 Mamba 单独完成任务等方向展开,进一步提升场景图生成能力,拓展其在更多领域的应用,为相关技术的发展注入新的活力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号