建成环境对户外体力活动的差异化影响:基于可解释机器学习(SHAP)的步行、慢跑和骑行比较研究

《Sustainability》:Walking, Jogging, and Cycling: What Differs? Explainable Machine Learning Reveals Differential Responses of Outdoor Activities to Built Environment

【字体: 时间:2026年01月04日 来源:Sustainability 3.3

编辑推荐:

  本文利用大规模街道级GPS轨迹数据与多源建成环境数据,结合随机森林(Random Forest)和SHAP(SHapley Additive exPlanations)可解释性机器学习方法,揭示了长沙市中心城区建成环境指标对步行、慢跑和骑行三类户外体力活动(PA)的非线性关联与交互作用。研究发现不同活动类型对人口密度(D_P)、公交站点密度(D_BS)、土地利用混合度(LUM)等变量的响应存在显著差异(如阈值效应),为健康导向的城市街道设计提供了精细化实证依据。

  

研究背景与意义

公共健康是人类社会长期关注的焦点,大量研究表明缺乏体力活动是心脏病、高血压和肥胖等慢性疾病的主要诱因。近年来研究进一步证实,每日步数增加与痴呆症发病风险稳步下降相关,最大获益步数约为9800步/天。主动通勤(如步行和骑行)与2型糖尿病风险降低显著相关,活跃通勤者的风险比非活跃通勤者低约19%。大规模荟萃分析也确认步行、慢跑等体力活动干预是治疗抑郁症的有效方法,其效果常与心理治疗或药物治疗相当。因此,促进日常户外体力活动已成为各国政府和城市规划者的关键目标,对于降低疾病发生率和改善人口健康具有重要意义。
街道作为日常通勤和休闲的重要场所,其建成环境特征显著影响居民的户外活动水平乃至健康。大量实证研究表明,街道建成环境的空间结构、交通设施、绿地和土地利用类型等因素显著影响居民的体力活动行为:较高的土地利用混合度与居民更活跃的步行行为相关;高绿地覆盖率和完善的步行基础设施显著增加居民步行意愿;在慢跑行为研究中,密集的道路网络为跑步者提供了多样化的路线选择并增加居民户外活动倾向;优质的绿色景观不仅为慢跑提供安全舒适的空间,也改善跑步者的心理健康;对骑行行为的研究指出,道路宽度、车道数、交通量、交通安全设施和坡度等因素共同决定了骑行的可行性和舒适度。
然而,该领域现有研究存在三个主要局限:首先,以往研究主要依赖传统调查数据或二维平面数据测量建成环境,常忽视居民亲身感受的街道三维感知品质,导致研究指标与居民实际体验脱节。其次,尽管多元线性回归等统计模型能识别线性关联,但无法捕捉建成环境与活动流之间可能存在的复杂非线性关系和交互效应。最后,现有文献多集中于单一活动类型,缺乏对不同活动类型的比较研究。不同活动类型在速度、距离和环境感知上存在明显差异,其与建成环境的关系可能具有显著异质性。忽视这种异质性限制了对该领域的全面理解,阻碍了准确阐明居民户外活动与建成环境间复杂多维机制,并妨碍了针对性规划建议的制定。

材料与方法

本研究聚焦于中国长沙市的二环线内城区,旨在通过构建一个综合的分析框架来填补上述研究空白。研究整合了步行、慢跑和骑行的轨迹数据,以及源自街景图像(SVI)、兴趣点(POI)数据和其他城市形态数据集的环境感知数据。研究目标包括:分析长沙二环线内步行、慢跑和骑行的时空特征;构建一个涵盖吸引力、活力和可达性的多维度建成环境指标集;采用随机森林回归模型检验建成环境变量与三类活动流量的关联;应用SHapley Additive exPlanations(SHAP)解释随机森林输出,明确揭示影响每类活动类型的建成环境因素之间的非线性关系和交互效应。
研究区域定义为长沙二环线所围合的城市核心街道空间。研究数据主要包括:通过健身追踪应用程序记录的GPS运动轨迹数据(最终数据集包含50,840条轨迹:8809条步行、20,177条慢跑和21,854条骑行);从OpenStreetMap下载并处理得到的长沙道路网络数据(最终得到9083个街道段);基于简化路网数据以50米间隔生成采样点,利用百度街景API获取街景图像(最终数据集包含18,794个采样点和75,176张街景图像);以及其他数据集如人口密度热力图数据。
研究变量包括因变量(步行、慢跑和骑行流量密度)和自变量。自变量为建成环境变量,从三个维度选取:吸引力(绿色可视率GVI、天空开阔度SO、大型开放空间可达性ALOS、界面围合度IE、建筑连续性C_B)、活力(人口密度D_P、土地利用混合度LUM、零售店密度D_RS)和可达性(道路交叉口密度D_RI、公交站点密度D_BS、步行连续性C_W、到最近地铁入口距离D_SBE)。
研究方法核心包括随机森林模型和SHAP解释模型。随机森林模型通过自助聚合和随机子空间方法的协同应用,有效捕捉建成环境与户外体力活动之间潜在的非线性和高维复杂关系。SHAP框架基于合作博弈论的Shapley值,在全局和局部层面分解和解释模型预测,公平地将预测值归因于个体输入特征,实现单变量贡献及其交互效应的精确量化。SHAP交互值进一步用于捕捉和量化建成环境因素间的双边交互作用。

研究结果与发现

描述性分析揭示了三类活动的时空分布特征。步行活动以中距离为主(2-8公里),平均时长78分钟,呈现早(07:00-09:00)晚(19:00-21:00)高峰,空间上形成以五一广场、北辰三角洲、八方公园和东塘为核心的多中心放射状聚集模式。慢跑活动同样以中距离为主(2-8公里),但平均时长较短(35分钟),早晚高峰时间略早且持续时间更长,空间上形成以八方公园、北辰三角洲和东塘为核心的高密度区域,并沿湘江两岸、五一大道和芙蓉中路形成线性高密度核心带。骑行活动则以长距离为主(10-40公里),平均时长97分钟,早晚高峰时间略晚(08:00-10:00和19:00-22:00),空间聚集性较弱,呈现“廊道主导、全域渗透”的弱中心化分布模式。
模型训练与评估显示,所有变量的方差膨胀因子(VIF)均小于5,不存在严重多重共线性。随机森林模型在拟合优度(R2)和预测误差(RMSE, MAE)方面均优于XGBoost和LightGBM模型,被选为最终分析模型。
建成环境变量重要性分析表明,活力和可达性变量在步行、慢跑和骑行活动中占主导地位,解释了约90%的方差,而吸引力变量仅解释约10%。具体而言,对步行流量最重要的预测因子是人口密度(D_P, RI: 26.3%)和公交站点密度(D_BS, RI: 22.0%);对慢跑流量最重要的是土地利用混合度(LUM, RI: 25.7%)和公交站点密度(D_BS, RI: 21.2%);对骑行流量最重要的是公交站点密度(D_BS, RI: 30.1%)和土地利用混合度(LUM, RI: 27.1%)。
非线性关联分析通过SHAP局部依赖图揭示了各变量的阈值效应和有效区间。例如,公交站点密度(D_BS)对所有三类活动均呈正影响,但其正效应在密度超过约0.14个/米后对骑行和步行趋于稳定,表明存在饱和效应。道路交叉口密度(D_RI)在超过6个/平方公里时对慢跑和步行的局部效应由负转正,超过18个/平方公里时对骑行的效应也转正。到最近地铁入口距离(D_SBE)对慢跑和步行在300-1400米范围内呈负效应,之外为正效应;而对骑行,距离超过800米后效应由正转负,体现了骑行的“最后一公里”接驳功能。土地利用混合度(LUM)和人口密度(D_P)均在超过特定阈值(LUM > 0.01; D_P > 400人/平方公里)后对活动流量产生显著正影响。绿色可视率(GVI)在超过0.35后,对三类活动的效应均由负转正。大型开放空间可达性(ALOS)对骑行呈负影响,对慢跑呈正影响,对步行的影响则较为复杂。
交互效应分析发现,主效应通常大于交互效应,但对于慢跑流量,交互效应的总和甚至超过了主效应,表明变量间的相互作用对慢跑活动尤为关键。具体交互模式包括:对于步行流量,人口密度(D_P)与步行连续性(C_W)在低密度区域呈负交互,但在高值区间呈正交互;道路交叉口密度(D_RI)与土地利用混合度(LUM)在路网稀疏区域呈负交互,表明在此类区域可通过多样化土地利用来促进步行。对于慢跑流量,公交站点密度(D_BS)与土地利用混合度(LUM)呈负交互,在低公交覆盖区域,过高的LUM会抑制慢跑;道路交叉口密度(D_RI)与土地利用混合度(LUM)在D_RI较高时呈负交互,但增加LUM可缓解行人车流对慢跑的负面影响。对于骑行流量,建筑连续性(C_B)与土地利用混合度(LUM)在C_B较高且LUM单一的区域呈正交互,表明可通过增强街道立面完整性来促进骑行;天空开阔度(SO)与LUM在SO较低且LUM单一的区域呈负交互。在吸引力-可达性变量对中,大型开放空间可达性(ALOS)与步行连续性(C_W)对步行和慢跑呈正交互,但对骑行呈负交互;ALOS与道路交叉口密度(D_RI)对步行和骑行呈负交互。

讨论与政策启示

研究结果揭示了不同活动类型响应建成环境要素的差异化机制。步行表现出典型的“目的驱动”导向,高度依赖高密度开发和公共交通服务,并显示出明显的阈值特征和拥挤效应。慢跑则是“体验导向”,其选址更依赖于环境特征的“组合效应”,即邻近绿地且周边服务完善,同时避免过度拥挤。骑行表现为“效率导向”,对网络连通性和土地利用结构最为敏感,其顺畅运行依赖于较高的道路交叉口密度和连续、可预测的道路系统,并对“最后一公里”接驳距离有明确的阈值效应。值得注意的是,大型单一功能开放空间在某些情况下会阻碍效率导向的骑行而非吸引它。
基于上述非线性、阈值和交互特性,政策建议应侧重于差异化目标和要素组合,摒弃依赖单一指标的线性放大策略。通用建议是增强街道网络连通性。针对各活动的具体建议包括:促进步行应侧重于增加服务和功能密度,并优化公交站点空间布局,确保密度和公交服务处于“有效范围”内;促进慢跑需在大型开放空间附近创建“体验复合区”,结合低感知拥挤度和充足的配套设施,确保景观质量、宁静度和补给服务的协同作用;促进骑行则应优先考虑网络连通性和换乘便利性,确保地铁站“最后一公里”接入(约800米内)提供连续、可选的自行车道,并提高交叉口和网络的可达性。
在实施层面,应推广分区差异化治理和小规模试点,采用数据驱动的实验-评估-调整反馈循环来确定各要素的“有效范围”,并将这些经验逐步纳入城市设计标准和土地审批程序。对现有社区改造应强调“质量优先”,而非简单堆叠设施,例如整合优化过密的公交站点、改善行人和骑行的微基础设施、增强公园的渗透性和多入口可达性,以放大积极效应同时缓解因要素过度积累导致的拮抗影响。

研究局限与展望

本研究存在一些局限性。数据方面,源自健身应用的自愿上传轨迹可能存在样本偏差(如过度代表年轻、数字素养高的休闲运动用户),且横断面数据难以建立严格因果关系。未来研究可结合更广泛数据源(如智能手机传感器数据、可穿戴设备记录)并采用纵向设计或自然实验方法。变量选择方面,虽引入了街景图像增强三维感知测量,但对社会环境因素和个体社会经济特征的考量仍不足。未来应整合社会人口统计数据和感知调查数据,构建更全面的多维分析框架。结论的普适性方面,长沙作为高密度中国城市的代表性,其结论对同类城市有重要参考价值,但不同城市在气候、文化、发展阶段和城市形态上存在差异,未来需在更多样化的城市背景下应用和检验本分析框架,以提炼更具普适性的理论见解并为不同地区制定量身定制的健康街道设计策略。

结论

本研究以长沙二环线内区域为案例,利用多源城市大数据考察了多种建成环境变量与骑行、慢跑和步行活动水平之间的关联。通过比较一组预测模型,最终选择随机森林算法,并结合SHAP方法,刻画了建成环境变量与三类活动类型之间的非线性关联和交互模式。主要发现包括:首先,活动量和可达性指标是预测三类体力活动的最重要预测因子。其中,公交站点密度(D_BS)、土地利用混合度(LUM)和人口密度(D_P)被确定为最重要的预测因子,共同解释了约60-70%的模型预测力。其次,不同建成环境变量对三类活动类型均表现出明显的非线性模式和影响阈值。例如,公交站点密度(D_BS)与骑行的关联相对其他两类活动更强,而土地利用混合度(LUM)与慢跑的关联则相对大于人口密度(D_P)。这些结果可通过识别关键影响因素及其最有效的“最优范围”,协助政府设计基于证据的干预措施。同时,本研究考察了建成环境变量间复杂的交互作用,尤其值得注意的是,慢跑的交互贡献甚至超过了主效应,表明建成环境的影响是交互式而非独立运行的。在此背景下,政府可以更好地制定政策和指南以改善目标区域的城市环境,从而鼓励公众参与体力活动,支持“健康中国”倡议并促进人口健康。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号