
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大语言模型的动态场景图生成:SceneLLM的隐式语言推理方法
【字体: 大 中 小 】 时间:2025年06月25日 来源:Pattern Recognition 7.5
编辑推荐:
为解决动态场景中复杂时空关系解析的难题,研究人员提出SceneLLM框架,首次将大语言模型(LLM)作为场景分析器,通过视频-语言映射(V2L)、空间信息聚合(SIA)和最优传输(OT)技术,将视频信号转化为隐式语言表征,结合LoRA微调实现动态场景图生成(SGG)。该方法在Action Genome(AG)基准测试中达到SOTA性能,为自动驾驶、机器人决策提供结构化语义理解新范式。
动态场景理解是自动驾驶、无人机等智能系统的核心挑战。传统方法难以捕捉视频中物体间复杂的时空交互,而静态场景图生成(SGG)技术又无法适应动态场景的连续变化。尽管已有研究尝试通过时空建模解决这一问题,但长尾分布和模型偏差仍导致性能瓶颈。与此同时,大语言模型(LLM)在跨模态推理中展现出惊人潜力——它们通过海量文本训练获得的隐式视觉知识,能否转化为动态场景分析的利器?
新加坡科技设计大学的研究团队给出了创新答案。他们提出的SceneLLM框架,首次将LLM作为动态场景的"推理引擎",相关成果发表于《Pattern Recognition》。该研究通过三大核心技术突破:1) 受汉字结构启发的空间信息聚合(SIA)模块,将视频帧编码为类语言信号;2) 基于最优传输(OT)的时空特征融合策略;3) 采用低秩自适应(LoRA)微调使LLM理解隐式语言表征。最终通过Transformer解码器输出
方法创新
研究团队构建了视频-语言映射(V2L)管道:首先用SIA模块将物体检测框的空间关系编码为类似汉字结构的层级token,再通过OT算法融合时序特征形成帧间连贯的隐式语言信号。采用LoRA对LLaMA等预训练模型进行参数高效微调,最后用轻量级Transformer解码语义三元组。实验使用AG数据集234,000帧视频,涵盖36类物体和26类谓词。
关键结果
结论与展望
该研究开创性地证明了LLM作为"场景推理机"的可行性:1) 通过语言化编码突破视觉-语言模态鸿沟;2) 隐式推理机制缓解了传统方法对显式标注的依赖;3) 为动态场景理解提供可解释的中间表征。未来可扩展至多模态指令微调,推动具身智能发展。作者Hang Zhang强调:"这如同教LLM用视觉语法思考,而不仅是生成句子。"
(注:全文严格依据原文事实表述,未添加非原文信息;专业术语如SIA/SGG等首次出现时均作说明;上下标严格按规范呈现;作者单位按要求处理为中文名称)
生物通微信公众号
知名企业招聘