融合光流图的多模态交通场景理解模型:提升自动驾驶决策透明性与可解释性

【字体: 时间:2025年06月27日 来源:Neurocomputing 5.5

编辑推荐:

  为解决自动驾驶系统决策过程不透明、不可解释的问题,研究人员提出了一种融合光流图的多模态交通场景理解模型(TSUM)。该模型通过共享参数网络同步提取Farneback光流图与原始视频特征,结合自适应任务复杂度递进策略(ATCP)和引导词库,显著提升了场景感知与因果分析能力。实验证明TSUM在Berkeley Deep Drive-X数据集上优于现有方法,为自动驾驶安全部署提供了可解释性解决方案。

  

自动驾驶技术的快速发展带来了安全性与可信度的双重挑战。尽管自动驾驶车辆能够通过传感器和算法实现环境感知,但其决策过程如同“黑箱”,缺乏透明性。当发生事故时,责任归属成为棘手的“莫莉问题”(Molly Problem)。国际电信联盟和各国监管机构呼吁建立类似飞机黑匣子的事件记录系统,而欧盟《通用数据保护条例》更是明确要求人工智能系统需具备可解释性(Explainable AI, XAI)。公众对自动驾驶的信任危机源于频繁的系统故障和无法理解的决策逻辑,研究表明多数人认为人类驾驶员在异常交通场景中表现更优。

北京交通大学的研究团队在《Neurocomputing》发表论文,提出了一种端到端交通场景理解模型(Traffic Scene Understanding Model, TSUM)。该模型创新性地将Farneback光流算法与多模态大模型结合,通过共享参数网络同步处理光流图和原始视频,动态捕捉交通场景的时空特征。为解决复杂任务收敛难题,团队设计了自适应任务复杂度递进策略(Adaptive Task Complexity Progression, ATCP),并构建多类型引导词库增强泛化能力。实验验证显示,TSUM在Berkeley Deep Drive-X数据集上的表现超越现有方法,参数规模仅0.74B(74亿),具有轻量化优势。

关键技术包括:1)基于Farneback算法的光流特征提取与RGB空间映射;2)融合Transformer的多模态特征编码;3)ATCP策略分阶段训练;4)高斯分布平滑过渡优化。数据集采用公开的BDD-X(Berkeley Deep Drive-X),涵盖多种交通场景。

主要结果

  • 场景动态建模:光流图与视频特征联合提取显著提升运动物体识别率,速度预测误差降低23%。
  • 任务复杂度控制:ATCP策略使多任务训练收敛速度提升40%,消融实验证实其必要性。
  • 可解释性验证:引导词库生成的决策描述与人类标注一致性达89%,优于纯文本基线模型。

结论与意义
TSUM首次将场景感知与因果分析整合到统一框架,其光流-视频双模态设计突破了传统单模态模型的时空建模局限。ATCP策略为复杂任务训练提供了可复用的方法论,而轻量化设计(0.74B参数)使其易于工业部署。该模型不仅可用于事故回溯和实时预警,还能通过自然语言解释车辆行为,例如“因前方行人突然变道而减速”。未来研究需解决极端天气下的光流计算误差问题,并探索与其他传感器(如LiDAR)的融合方案。这项工作为自动驾驶透明化树立了新标杆,其技术路线可扩展至机器人导航、智能监控等领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号