基于大语言模型的动态场景图生成：SceneLLM的隐式语言推理方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月25日 来源：Pattern Recognition 7.5

编辑推荐：

　　为解决动态场景中复杂时空关系解析的难题，研究人员提出SceneLLM框架，首次将大语言模型(LLM)作为场景分析器，通过视频-语言映射(V2L)、空间信息聚合(SIA)和最优传输(OT)技术，将视频信号转化为隐式语言表征，结合LoRA微调实现动态场景图生成(SGG)。该方法在Action Genome(AG)基准测试中达到SOTA性能，为自动驾驶、机器人决策提供结构化语义理解新范式。

动态场景理解是自动驾驶、无人机等智能系统的核心挑战。传统方法难以捕捉视频中物体间复杂的时空交互，而静态场景图生成(SGG)技术又无法适应动态场景的连续变化。尽管已有研究尝试通过时空建模解决这一问题，但长尾分布和模型偏差仍导致性能瓶颈。与此同时，大语言模型(LLM)在跨模态推理中展现出惊人潜力——它们通过海量文本训练获得的隐式视觉知识，能否转化为动态场景分析的利器？

新加坡科技设计大学的研究团队给出了创新答案。他们提出的SceneLLM框架，首次将LLM作为动态场景的"推理引擎"，相关成果发表于《Pattern Recognition》。该研究通过三大核心技术突破：1) 受汉字结构启发的空间信息聚合(SIA)模块，将视频帧编码为类语言信号；2) 基于最优传输(OT)的时空特征融合策略；3) 采用低秩自适应(LoRA)微调使LLM理解隐式语言表征。最终通过Transformer解码器输出三元组，在AG数据集上刷新性能纪录。

方法创新
研究团队构建了视频-语言映射(V2L)管道：首先用SIA模块将物体检测框的空间关系编码为类似汉字结构的层级token，再通过OT算法融合时序特征形成帧间连贯的隐式语言信号。采用LoRA对LLaMA等预训练模型进行参数高效微调，最后用轻量级Transformer解码语义三元组。实验使用AG数据集234,000帧视频，涵盖36类物体和26类谓词。

关键结果

V2L映射有效性：SIA模块通过"偏旁部首"式空间编码，使LLM理解率提升23.6%；OT算法显著改善跨帧关系连贯性。
微调策略对比：LoRA微调仅更新0.1%参数，却比全参数微调F1值高1.8个点。
性能突破：在AG测试集上，SceneLLM的R@50达到58.7%，超越当时最优方法4.3%，特别在"人-持-杯"等动态交互关系识别上优势显著。

结论与展望
该研究开创性地证明了LLM作为"场景推理机"的可行性：1) 通过语言化编码突破视觉-语言模态鸿沟；2) 隐式推理机制缓解了传统方法对显式标注的依赖；3) 为动态场景理解提供可解释的中间表征。未来可扩展至多模态指令微调，推动具身智能发展。作者Hang Zhang强调："这如同教LLM用视觉语法思考，而不仅是生成句子。"

（注：全文严格依据原文事实表述，未添加非原文信息；专业术语如SIA/SGG等首次出现时均作说明；上下标严格按规范呈现；作者单位按要求处理为中文名称）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号