在世界视角下用于预测行人潜在轨迹的动态图变换器
《Neurocomputing》:Dynamic graph transformer for pedestrian potential trajectory prediction under the world perspective
【字体:
大
中
小
】
时间:2025年11月19日
来源:Neurocomputing 6.5
编辑推荐:
行人轨迹预测通过动态图Transformer和世界模块解决碎片化轨迹与长距离依赖问题,采用三重注意力机制建模时空交互,结合双变量高斯分布预测,在ETH/UCY等基准数据集上优于现有方法。
在自动驾驶和智能监控领域,行人轨迹预测是一项至关重要的任务。准确且可靠的预测不仅可以有效降低碰撞风险,还能提前预警潜在的事故热点区域,为系统提供更充分的反应时间。然而,这一任务面临着诸多挑战,例如多智能体交互、高动态性、部分可观测性以及运动的随机性等。传统方法多采用基于物理的模型,如社会力模型(Social Force Model, SFM)和卡尔曼滤波(Kalman Filter, KF),这些模型在一定程度上能够模拟行人运动,但往往无法准确捕捉行人的高层意图和运动不确定性。随着深度学习技术的发展,研究者开始探索利用神经网络来建模行人轨迹预测问题,尤其是通过分离空间和时间建模的方式,以提高预测精度。
然而,现有方法在处理行人轨迹数据时存在两个关键问题。首先,许多模型仅关注满足长度要求的自我轨迹(ego trajectory),而直接丢弃那些不完整的轨迹片段,这种做法忽视了不完整轨迹对预测结果的影响。其次,现有模型未能充分考虑时间与空间中的长距离依赖关系,这导致模型在处理复杂场景时难以准确捕捉行人之间的交互行为。因此,本文提出了一种新的基于世界视角的动态图变换器(World Perspective Dynamic Graph Transformer, W-DGTrans),以解决上述问题并提升预测性能。
W-DGTrans的核心思想是通过引入一个专门的“世界模块”(World Module, WM)来处理不完整的轨迹数据。该模块首先对不完整轨迹进行填充,使其长度与自我轨迹一致,从而确保所有行人的轨迹信息都被纳入模型的考虑范围。此外,WM还生成相应的掩码(mask),用于后续自注意力计算和损失函数的处理。这些掩码不仅帮助模型区分有效轨迹和填充轨迹,还能够有效减少因填充操作可能引入的信息偏差。更重要的是,WM利用帧间信息更新行人之间的相对位置,以缓解由于部分帧丢失而导致的行人运动状态被高估的问题。
在模块设计方面,W-DGTrans采用了基于Transformer的编码器-解码器框架,以建模行人轨迹的时间和空间交互。该模型精心设计了三种注意力机制:时间多头注意力(Temporal Multi-Head Attention, TMA)、时间多头交互注意力(Temporal Multi-Head Interaction Attention, TMIA)以及社会多头注意力(Social Multi-Head Attention, SMA)。其中,TMA通过建模历史轨迹与未来轨迹之间的成对关系,来提取全局的时间上下文信息;TMIA则通过计算历史轨迹与未来轨迹之间的注意力权重,来学习轨迹之间的对齐关系;SMA则结合动态图结构,以建模同一时刻所有行人之间的社会交互行为。这三种注意力机制的协同作用,使得W-DGTrans能够更全面地捕捉行人轨迹的时空特性。
在预测方面,W-DGTrans采用双变量高斯分布(bivariate Gaussian distribution)来建模行人轨迹的随机性。这一方法能够更准确地描述行人可能的路径范围,同时提供对预测不确定性的量化评估。相比于传统的确定性预测方法,该方法在面对复杂场景和不确定因素时具有更强的适应能力。此外,W-DGTrans在实验中表现优异,其性能在多个基准数据集(包括ETH和UCY)上均优于当前最先进的方法。实验结果表明,W-DGTrans不仅在预测精度上有所提升,还能够有效处理不完整轨迹和帧丢失问题,从而提供更稳定和可靠的预测结果。
为了验证W-DGTrans的有效性,本文在多个标准数据集上进行了广泛实验。其中,ETH数据集包含两个子集(ETH和HOTEL),而UCY数据集则包括三个子集(ZARA1、ZARA2和UNIV)。这些数据集涵盖了不同的场景和行人行为模式,能够全面评估模型的泛化能力。实验结果显示,W-DGTrans在预测准确性和鲁棒性方面均表现出色,特别是在处理不完整轨迹和部分可观测性方面,相较于传统方法具有明显优势。这一成果不仅提升了行人轨迹预测的精度,还为后续的路径规划和安全预警提供了更可靠的依据。
在实际应用中,W-DGTrans的引入为自动驾驶系统和智能监控系统提供了新的解决方案。通过引入世界模块,模型能够更全面地处理场景中的行人轨迹信息,从而减少因数据缺失而导致的预测偏差。同时,基于Transformer的注意力机制使得模型能够捕捉行人之间的复杂交互行为,提高预测的准确性。此外,双变量高斯分布的使用为模型提供了对行人运动不确定性的量化描述,使得预测结果更具解释性和实用性。这些改进不仅有助于提升系统的安全性,还能够增强其对复杂交通环境的适应能力。
本文的研究成果对于推动行人轨迹预测技术的发展具有重要意义。首先,它提供了一种新的数据预处理方法,能够有效处理不完整轨迹和帧丢失问题,从而提高模型的鲁棒性。其次,通过引入三种注意力机制,W-DGTrans能够更全面地建模行人轨迹的时空依赖关系,从而提升预测的准确性。最后,模型的预测结果不仅适用于自动驾驶系统,还能够为智能监控系统提供有价值的信息,帮助系统更早识别潜在的危险情况,提高整体的安全性能。
综上所述,W-DGTrans的提出标志着行人轨迹预测技术的一个重要进展。它不仅解决了现有方法在处理不完整轨迹和部分可观测性方面的不足,还通过引入先进的注意力机制和预测方法,提升了模型的预测性能和实用性。未来,随着自动驾驶和智能交通系统的发展,W-DGTrans有望在实际应用中发挥更大的作用,为提高道路安全性和交通智能化水平做出贡献。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号