
-
生物通官微
陪你抓住生命科技
跳动的脉搏
上海地铁系统高分辨率人类移动数据集:揭示城市交通动态与通勤模式
【字体: 大 中 小 】 时间:2025年06月24日 来源:Scientific Data 5.8
编辑推荐:
为解决城市地铁系统精细化建模的数据缺口问题,上海交通大学团队基于7.368亿条智能卡记录,构建了覆盖上海302个地铁站、时间分辨率达10分钟的高精度OD(Origin-Destination)流量数据集。通过分类通勤流(C)、居家相关流(HBO)与非居家流(NHB),结合气象与拓扑数据,为交通优化、时空数据挖掘及城市科学提供了多维度研究基准。
背景与挑战
在全球城市化进程中,地铁系统作为高效低碳的交通载体,承担着20%-50%的通勤需求。然而,现有地铁数据集普遍存在时间分辨率低(如纽约MTA数据集仅提供小时级数据)、缺乏行程分类(如SHMetro未区分通勤与休闲出行)、或地理信息缺失(如参考数据集仅用ID标识站点)等局限。这些问题严重制约了精准预测早晚高峰流量、优化列车调度等关键应用。
研究设计与方法
上海交通大学联合上海市交通信息中心,基于2017年5-8月19.69万用户的7.368亿条AFC(自动售检票系统)数据,构建了迄今最精细的上海地铁流量数据集。通过Gaode API补全缺失的进站时间,并开发三重清洗规则(剔除不完整行程、异常短/长行程),最终形成302个站点、10分钟分辨率的流量矩阵。创新性地通过高频站点识别算法(阈值>40%访问量)标记用户居住/工作地,将行程分类为通勤流(C)、居家相关流(HBO)与非居家流(NHB)。
关键技术与数据
主要发现
1. 通勤行为的空间分异
通过分析10km以上长距离出行发现,通勤流(C)占比达67%,且呈现显著幂律分布(拟合优度R2>0.9),而NHB流在短途出行中占比更高。如图2(b)所示,迪士尼站(#1136)在暴雨日的客流量骤降60%,验证了气象敏感性的行程类别差异。
2. 时间动态的站级特征
人民广场等商业区站点呈现早8点出站/晚6点进站的“工作地模式”,而莘庄站则相反(居住地模式)。图3显示虹桥火车站NHB流占比超70%,凸显其作为交通枢纽的特性。
3. 数据可靠性验证
与2015年参考数据集对比,本研究的每小时流量方差相关性达0.98(p<0.001),如图6所示。降水与客流量的点二列相关系数在非工作日更高(r=0.32, p<0.01),印证数据的环境响应合理性。
结论与展望
该研究首次实现了百万级用户轨迹的细粒度(10分钟/302站)分类聚合,突破传统OD矩阵仅能反映总量的局限。通过公开数据集(figshare 28844942)与开源代码库,为以下领域提供新机遇:
未来可结合实时GPS数据提升轨迹精度,或引入迁移学习解决小样本站点预测问题。这项发表于《Scientific Data》的工作,为智慧城市研究树立了数据标准与技术范式。


生物通微信公众号
知名企业招聘