
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Transformer与地理轨迹嵌入的TransGTE模型:出租车行程终点预测新方法
【字体: 大 中 小 】 时间:2025年05月15日 来源:Expert Systems with Applications 7.5
编辑推荐:
为解决GPS轨迹数据稀疏性及地理信息利用不足的问题,研究人员提出TransGTE模型,结合GCN和Transformer提取地理与序列特征,通过动态门控机制自适应融合信息。实验表明其在四个城市数据集上平均误差降低2.87%-5.91%,为智能交通系统提供新思路。
在城市交通智能化浪潮中,GPS轨迹数据的利用始终面临三大挑战:数据稀疏性、序列模式复杂性以及地理关联性难以量化。传统方法如网格离散化和LSTM虽部分缓解了稀疏性问题,却无法有效捕捉轨迹间的动态地理关系。例如,两条地理邻近的轨迹在网格化后可能被编码为完全不同的序列,导致预测偏差。更棘手的是,盲目依赖地理相似性可能误导模型——比如学校区域与住宅区相邻,但行程终点却因场景不同而差异显著。
针对这一难题,国内研究团队开发了TransGTE模型,创新性地将地理信息与序列模式动态融合。该研究发表在《Expert Systems with Applications》,通过四个国际城市数据集验证,模型平均预测精度超越现有最佳方法2.87%-5.91%。其核心突破在于:首创GCN提取轨迹邻域地理特征,结合Transformer捕捉长程序列依赖,再通过自适应神经融合门(ANFG)实现情境感知的特征加权。这种架构既解决了传统网格嵌入丢失空间拓扑的问题,又避免了静态融合导致的场景误判。
关键技术方法包括:1)构建轨迹位置向量(TLV)量化网格访问频率;2)采用2层GCN捕获2跳范围内的地理关联;3)设计分块Transformer处理轨迹首尾差异特征;4)基于门控机制动态平衡序列与地理特征权重。实验使用Porto、Chengdu等真实出租车GPS数据,以Haversine距离为评估指标。
3.1 问题定义
通过将城市划分为k×k网格网络,定义轨迹为网格序列,并构建包含角点、边缘等拓扑关系的图结构。TLV将轨迹映射为网格访问频次的向量,为后续特征提取奠定基础。
3.4 地理嵌入
GCN通过邻接矩阵聚合轨迹周边网格信息,2层结构可覆盖2跳范围的地理关联。相比CNN和全连接网络,GCN在捕捉局部空间模式上表现最优,误差降低12.6%。
3.6 自适应融合
ANFG通过门控系数γi动态调节地理特征权重。实验显示,当轨迹经过学校等场景敏感区域时,γi自动下调至0.3以下,避免地理相似性干扰;而在高速公路等路径明确区域,γi提升至0.7以上。
4.5 性能对比
在Porto数据集上,TransGTE的终点预测误差(218米)显著优于MHSA(231米)等基准模型。案例研究显示,对于起点相距2网格的轨迹,模型仍能保持97.17%的相似性判断准确率,而传统Transformer仅44.97%。
这项研究的意义在于:首次实现轨迹地理与序列特征的动态协同建模,其网格网络构建方法可扩展至其他时空预测任务。ANFG机制为多源特征融合提供了新范式,而轻量化的GCN设计(仅4个隐藏单元)证明高效特征提取不一定依赖复杂架构。未来,整合实时交通事件等动态信息有望进一步提升预测精度,为共享出行和智慧城市调度提供更精准的决策支持。
生物通微信公众号
知名企业招聘