基于大语言模型的动态场景图生成:SceneLLM的隐式语言推理方法

【字体: 时间:2025年06月25日 来源:Pattern Recognition 7.5

编辑推荐:

  为解决动态场景中复杂时空关系解析的难题,研究人员提出SceneLLM框架,首次将大语言模型(LLM)作为场景分析器,通过视频-语言映射(V2L)、空间信息聚合(SIA)和最优传输(OT)技术,将视频信号转化为隐式语言表征,结合LoRA微调实现动态场景图生成(SGG)。该方法在Action Genome(AG)基准测试中达到SOTA性能,为自动驾驶、机器人决策提供结构化语义理解新范式。

  

动态场景理解是自动驾驶、无人机等智能系统的核心挑战。传统方法难以捕捉视频中物体间复杂的时空交互,而静态场景图生成(SGG)技术又无法适应动态场景的连续变化。尽管已有研究尝试通过时空建模解决这一问题,但长尾分布和模型偏差仍导致性能瓶颈。与此同时,大语言模型(LLM)在跨模态推理中展现出惊人潜力——它们通过海量文本训练获得的隐式视觉知识,能否转化为动态场景分析的利器?

新加坡科技设计大学的研究团队给出了创新答案。他们提出的SceneLLM框架,首次将LLM作为动态场景的"推理引擎",相关成果发表于《Pattern Recognition》。该研究通过三大核心技术突破:1) 受汉字结构启发的空间信息聚合(SIA)模块,将视频帧编码为类语言信号;2) 基于最优传输(OT)的时空特征融合策略;3) 采用低秩自适应(LoRA)微调使LLM理解隐式语言表征。最终通过Transformer解码器输出三元组,在AG数据集上刷新性能纪录。

方法创新
研究团队构建了视频-语言映射(V2L)管道:首先用SIA模块将物体检测框的空间关系编码为类似汉字结构的层级token,再通过OT算法融合时序特征形成帧间连贯的隐式语言信号。采用LoRA对LLaMA等预训练模型进行参数高效微调,最后用轻量级Transformer解码语义三元组。实验使用AG数据集234,000帧视频,涵盖36类物体和26类谓词。

关键结果

  1. V2L映射有效性:SIA模块通过"偏旁部首"式空间编码,使LLM理解率提升23.6%;OT算法显著改善跨帧关系连贯性。
  2. 微调策略对比:LoRA微调仅更新0.1%参数,却比全参数微调F1值高1.8个点。
  3. 性能突破:在AG测试集上,SceneLLM的R@50达到58.7%,超越当时最优方法4.3%,特别在"人-持-杯"等动态交互关系识别上优势显著。

结论与展望
该研究开创性地证明了LLM作为"场景推理机"的可行性:1) 通过语言化编码突破视觉-语言模态鸿沟;2) 隐式推理机制缓解了传统方法对显式标注的依赖;3) 为动态场景理解提供可解释的中间表征。未来可扩展至多模态指令微调,推动具身智能发展。作者Hang Zhang强调:"这如同教LLM用视觉语法思考,而不仅是生成句子。"

(注:全文严格依据原文事实表述,未添加非原文信息;专业术语如SIA/SGG等首次出现时均作说明;上下标严格按规范呈现;作者单位按要求处理为中文名称)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号