上海地铁系统高分辨率人类移动数据集:揭示城市交通动态与通勤模式

【字体: 时间:2025年06月24日 来源:Scientific Data 5.8

编辑推荐:

  为解决城市地铁系统精细化建模的数据缺口问题,上海交通大学团队基于7.368亿条智能卡记录,构建了覆盖上海302个地铁站、时间分辨率达10分钟的高精度OD(Origin-Destination)流量数据集。通过分类通勤流(C)、居家相关流(HBO)与非居家流(NHB),结合气象与拓扑数据,为交通优化、时空数据挖掘及城市科学提供了多维度研究基准。

  

背景与挑战
在全球城市化进程中,地铁系统作为高效低碳的交通载体,承担着20%-50%的通勤需求。然而,现有地铁数据集普遍存在时间分辨率低(如纽约MTA数据集仅提供小时级数据)、缺乏行程分类(如SHMetro未区分通勤与休闲出行)、或地理信息缺失(如参考数据集仅用ID标识站点)等局限。这些问题严重制约了精准预测早晚高峰流量、优化列车调度等关键应用。

研究设计与方法
上海交通大学联合上海市交通信息中心,基于2017年5-8月19.69万用户的7.368亿条AFC(自动售检票系统)数据,构建了迄今最精细的上海地铁流量数据集。通过Gaode API补全缺失的进站时间,并开发三重清洗规则(剔除不完整行程、异常短/长行程),最终形成302个站点、10分钟分辨率的流量矩阵。创新性地通过高频站点识别算法(阈值>40%访问量)标记用户居住/工作地,将行程分类为通勤流(C)、居家相关流(HBO)与非居家流(NHB)。

关键技术与数据

  1. 轨迹重建:利用高德地图API逆向推算进站时间,解决原始数据缺失问题
  2. 行程分类:基于早晚高峰进出站频率识别居住/工作站点(H/W池)
  3. 质量控制:剔除<3分钟或>5小时的异常行程,完整性验证显示仅6天数据需排除
  4. 多源融合:整合气象数据(Open-meteo API)、站点拓扑(邻接表)与工作日历

主要发现
1. 通勤行为的空间分异
通过分析10km以上长距离出行发现,通勤流(C)占比达67%,且呈现显著幂律分布(拟合优度R2>0.9),而NHB流在短途出行中占比更高。如图2(b)所示,迪士尼站(#1136)在暴雨日的客流量骤降60%,验证了气象敏感性的行程类别差异。

2. 时间动态的站级特征
人民广场等商业区站点呈现早8点出站/晚6点进站的“工作地模式”,而莘庄站则相反(居住地模式)。图3显示虹桥火车站NHB流占比超70%,凸显其作为交通枢纽的特性。

3. 数据可靠性验证
与2015年参考数据集对比,本研究的每小时流量方差相关性达0.98(p<0.001),如图6所示。降水与客流量的点二列相关系数在非工作日更高(r=0.32, p<0.01),印证数据的环境响应合理性。

结论与展望
该研究首次实现了百万级用户轨迹的细粒度(10分钟/302站)分类聚合,突破传统OD矩阵仅能反映总量的局限。通过公开数据集(figshare 28844942)与开源代码库,为以下领域提供新机遇:

  • 交通工程:基于C/HBO/NHB流的差异优化列车排班
  • 城市计算:解析地铁网络与城市空间结构(如15分钟生活圈)的耦合关系
  • 突发应对:量化极端天气对不同站点类型的影响

未来可结合实时GPS数据提升轨迹精度,或引入迁移学习解决小样本站点预测问题。这项发表于《Scientific Data》的工作,为智慧城市研究树立了数据标准与技术范式。


相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号