《Sustainability》:Optimal Use of Supercritical CO2 as Heat Transfer Fluid for Geothermal System
编辑推荐:
本综述系统探讨了建成环境(BE)对步行、慢跑和骑行三种户外体力活动(PA)的非线性影响机制。研究创新性地结合随机森林(RF)模型与SHapley加性解释(SHAP)框架,揭示了人口密度(D_P)、公交站点密度(D_BS)、土地利用混合度(LUM)等关键变量的阈值效应及交互作用,为健康中国战略下促进公众体力活动、优化城市街道设计提供了重要的实证依据和精准规划策略。
1. 引言
公共健康是人类社会长期关注的问题,大量研究表明缺乏体力活动是导致大多数慢性疾病的主要因素。促进日常户外体力活动已成为政府和城市规划者的关键目标,对于降低疾病发病率和改善人口健康至关重要。街道作为日常通勤和休闲的重要场所,其建成环境特征显著影响居民的户外活动水平。然而,现有研究存在一定局限性,例如主要依赖传统调查数据或二维平面数据测量建成环境,往往忽略了居民亲身经历的三维感知质量;传统统计模型难以捕捉建成环境与活动流之间可能存在的复杂非线性关系和交互效应;现有文献往往集中于单一活动类型,缺乏对不同活动类型的比较研究。
2. 文献综述
2.1. 健康街道的研究历程
“健康街道”主题源于公共卫生研究,并逐渐通过城市设计和交通政策的实践走向成熟。中国也长期探索健康与建成环境的关系,从早期的定性研究逐步发展到以定量分析为主的阶段。随着大数据和人工智能的发展,数据类型更加多样,研究方法和技术更加先进,中国对“健康街道方法”的分析逐步进入了以定量分析为主的阶段。
2.2. 体力活动的测量
在户外体力活动的定量研究中,轨迹数据是常用的数据源。轨迹数据由带有时间戳的位置序列组成,通常包括样本点的空间坐标、采样时间和速度等属性。常见的轨迹数据收集方法包括手持全球定位系统(GPS)接收器、手机数据、公共交通智能卡记录和自发性地理信息(VGI)。在使用上述轨迹数据研究体力活动时,研究人员需要注意轨迹分割、采样频率对速度和行为识别的影响以及隐私保护等问题。
2.3. 建成环境与体力活动的非线性关联
近年来,关于建成环境与户外活动关系的定量研究普遍从假设线性关系转向利用机器学习方法揭示非线性关联。代表性方法包括GBDT、XGBoost和随机森林,随后使用PDP或SHAP等解释工具来识别阈值和局部效应。然而,在当前的关联分析中,对街道层面建成环境的大规模测量大多仍是二维的,很少将三维环境要素纳入建成环境与街道活力的交互框架中。此外,研究人员通常关注单一类型的户外活动,很少系统比较三种活动类型以揭示建成环境对不同活动偏好的差异化影响机制。
3. 材料与方法
3.1. 研究区域
研究区域定义为长沙第二环路内的城市核心街道空间。该区域位于湖南省省会长沙的都市核心区,地理中心约为北纬28°13′41″,东经112°56′20″。气候上,长沙属亚热带湿润气候,年平均气温约17°C,降水充沛,季节分布明显,为全年开展步行、慢跑和骑行等积极户外活动创造了有利条件。
3.2. 数据收集与预处理
研究收集并处理了多种数据,包括运动GPS轨迹、街道和道路数据、街景图像(SVI)以及其他数据集(如人口密度热力图数据)。GPS运动轨迹通过健身追踪应用程序记录,确保不涉及个人身份信息。街道段被选为分析的空间单元,基于简化的道路网络数据生成采样点坐标,并利用百度街景API获取街景图像。使用DeepLab V3+模型进行街景采样和语义分割。
3.3. 变量
因变量为步行、慢跑和骑行的流量密度。自变量为建成环境变量,从吸引力、活力和可达性三个维度选取,包括绿视率(GVI)、天空开阔度(SO)、大型开放空间可达性(ALOS)、界面围合度(IE)、建筑连续性(C_B)、人口密度(D_P)、土地利用混合度(LUM)、零售店密度(D_RS)、道路交叉口密度(D_RI)、公交站点密度(D_BS)、步行连续性(C_W)和到最近地铁入口的距离(D_SBE)。
3.4. 方法
3.4.1. 随机森林模型
本研究采用随机森林(RF)集成机器学习算法,以有效捕捉建成环境与户外体力活动之间潜在的非线性和高维复杂关系,并克服传统线性模型在解决此类问题时的局限性。随机森林的核心原理在于自助聚合法和随机子空间方法的协同应用。通过数据自助采样和分裂特征的随机选择这种双重随机性机制,有效降低了模型方差,使模型对数据噪声和异常值不敏感,并显著增强了泛化能力。
3.4.2. 解释模型
为了增强模型的可解释性和透明度,本研究引入了基于合作博弈论中Shapley值的SHAP框架,在全局和局部层面分解和解释模型预测。SHAP框架的核心优势在于能够将任何给定的预测值公平地归因于单个输入特征,从而实现单变量贡献及其交互效应的精确量化。此外,本研究进一步利用SHAP交互值来捕捉和量化建成环境因素之间的双边交互作用。
3.4.3. 研究框架
研究采用四步法:数据收集与处理、变量计算、随机森林回归建模以及使用SHAP方法的全局解释。在数据收集和处理阶段,将三种体力活动的轨迹数据与建成环境预测变量聚合,并在空间上连接到研究单元。在变量计算之后,在Python 3.13.5环境中比较了随机森林、XGBoost 3.0.5和LightGBM 4.6.0回归模型。最终选择随机森林模型进行建模,使用70%的数据集进行训练,30%进行测试以验证准确性,并利用Scikit-learn中的GridSearchCV和K折交叉验证进行超参数调优。随后,使用SHAP包计算SHAP值,量化每个建成环境因素对体力活动流量的影响以解释模型预测。最后,计算SHAP交互值以探索不同建成环境因素之间的交互效应。
4. 结果
4.1. 描述性分析
4.1.1. 步行GPS轨迹
长沙的户外步行以中距离为主,轨迹距离呈现随距离增加而减少的距离衰减规律。平均户外步行时间为78分钟。步行活动量在一天中的不同时段呈现明显变化,具有早高峰和晚高峰。空间上,户外步行具有明显的聚集性,形成以五一广场、北辰三角洲、八方公园和东塘为锚点的多中心放射状格局。
4.1.2. 慢跑GPS轨迹
居民的户外慢跑以中距离为主。平均户外跑步时间为35分钟。慢跑活动同样呈现早高峰和晚高峰。空间上,户外慢跑表现出明显的聚集性,形成以八方公园、北辰三角洲和东塘为中心的高密度核心区域,流量从核心向周边递减。
4.1.3. 骑行GPS轨迹
居民的户外骑行以长距离为主,呈现非典型的衰减分布。平均户外骑行时间为97分钟。骑行活动也显示出早高峰和晚高峰。与步行和慢跑相比,骑行的空间聚集性较弱,流量沿街道等级递减,最终形成“廊道主导、全域渗透”的弱中心化分布格局。
4.2. 模型训练与评估
使用方差膨胀因子(VIF)检验建成环境变量之间的多重共线性,所有VIF值均小于5,表明不存在严重的多重共线性。在模型训练中,采用自助采样,80%的原始样本作为训练数据,20%作为测试数据来评估随机森林(RF)模型性能,同时采用网格搜索和5折交叉验证来确定最优参数组合并防止过拟合。最终,使用均方根误差(RMSE)、平均绝对误差(MAE)和R2作为评估指标,比较RF模型与XGBoost和LightGBM模型的性能。结果表明,RF模型具有更高的拟合优度,优于其他两种机器学习模型。
4.3. 建成环境变量重要性
通过计算平均SHAP值得出十二个建成环境变量的全局贡献。结果表明,活力和可达性变量在步行、慢跑和骑行活动中占主导地位,约占三种体力活动模型方差的90%,而吸引力变量仅解释约10%。这表明交通可达性和活力所代表的密度与体力活动密切相关,而街景属性可能不是显著相关因素。
4.4. 建成环境变量的非线性关联
基于SHAP的局部依赖图(LDPs)揭示了建成环境变量在可达性、活力和吸引力维度上对步行、慢跑和骑行流量的非线性效应。
4.4.1. 可达性变量
步行连续性(C_W)对步行、慢跑和骑行流量均产生正向影响。公交站点密度(D_BS)也对三种体力活动产生正向影响,但当该变量超过一定阈值后,其对骑行和步行的局部效应基本保持不变,表明该变量的有效阈值已被超越。道路交叉口密度(D_RI)对三种体力活动产生正向影响。到最近地铁入口的距离(D_SBE)对慢跑和步行活动产生正向影响,但对骑行产生负向影响。
4.4.2. 活力变量
土地利用混合度(LUM)对骑行、慢跑和步行流量产生正向影响。人口密度(D_P)也对三种体力活动产生正向影响。零售店密度(D_RS)对三种体力活动类型均产生正向影响。
4.4.3. 吸引力变量
绿视率(GVI)对步行、慢跑和骑行流量产生正向影响。天空开阔度(SO)也对三种体力活动产生正向影响。大型开放空间可达性(ALOS)对骑行产生负向影响,对慢跑产生正向影响;对于步行,其影响在低于-5.8时为正向,在-5.8至-2.5之间为负向,此后可忽略不计。界面围合度(IE)和建筑连续性(C_B)对三种体力活动也表现出复杂的非线性影响。
4.5. 建成环境变量间的交互效应
4.5.1. 总体分析
通过计算SHAP交互值,可视化了所有建成环境因素的主效应和交互效应。总体而言,主效应超过交互效应。这对于骑行和步行流量是成立的,其主效应之和高于交互效应之和。然而,值得注意的是,一些交互效应超过了主效应值。特别值得注意的是,慢跑流量的主效应之和低于交互效应,表明变量间的交互对于慢跑活动更为关键。
4.5.2. 交互分析
具体分析了可达性-活力、活力-吸引力以及吸引力-可达性变量对三种活动类型的交互效应。分析发现,例如,对于步行流量,人口密度(D_P)和步行连续性(C_W)在低密度区域会产生负向交互效应。对于慢跑流量,公交站点密度(D_BS)和土地利用混合度(LUM)在低公交覆盖区域会产生负向交互效应。对于骑行流量,建筑连续性(C_B)和土地利用混合度(LUM)在建筑连续性较高的区域会产生正向交互效应。
5. 讨论
5.1. 建成环境影响户外活动的综合阐释
5.1.1. 建成环境对步行行为的影响
结果表明,人口密度(D_P)和公交站点密度(D_BS)是居民步行行为最重要的两个预测因子。这表明在高密度城市如长沙,步行在很大程度上是一种目的驱动的活动,与居民的日常通勤、短途换乘和日常服务获取密切相关。SHAP局部依赖图也提供了关键的非线性证据。当街道人口密度超过约400人/平方公里的阈值时,开始对步行流量产生显著的正向影响。一个更关键的见解来自公交站点密度(D_BS)。步行流量随D_BS稳步增长,但在密度达到约0.14个站点/米后开始下降,然后在约0.26个站点/米后趋于平稳。这种“饱和效应”是传统线性模型无法捕捉的。
5.1.2. 建成环境对慢跑行为的影响
与步行的强目的性不同,慢跑作为一种典型的休闲活动,表现出明显的“体验导向”驱动机制。结果表明,居民慢跑行为最重要的三个预测因子是土地利用混合度(LUM)、公交站点密度(D_BS)和大型开放空间可达性(ALOS)。关于居民慢跑行为最显著的发现来自于对环境变量间交互效应的汇总分析。交互效应表明,慢跑者通常寻求连贯的街道环境体验,而非单一的最优环境(如孤立的公园);他们重视环境元素的组合,单个因素的质量本身不能完全决定一条街道对慢跑的吸引力——关键在于它是否与其他因素结合,为慢跑者提供良好的体验。
5.1.3. 建成环境对骑行行为的影响
居民的户外骑行既服务于通勤换乘的“最后一公里”功能,也具有长距离休闲目的,总体上表现出明显的效率导向。本研究发现,骑行流量主要由公交站点密度(D_BS)和土地利用混合度(LUM)驱动,SHAP分析进一步阐明了潜在机制。首先,骑行对LUM最敏感,响应曲线的斜率最陡。骑行的效率需求也反映在可达性指标上。当到地铁入口的距离超过约800米时,骑行流量受到显著的负面影响。值得注意的是,与传统规划假设相反,本研究发现了大型开放空间可达性(ALOS)对骑行活动的显著负面影响。
5.1.4. 三种户外活动建成环境影响的对比
基于随机森林和SHAP方法的结果表明,步行、慢跑和骑行对建成环境要素的响应机制存在显著差异,而非同质特征。总体比较揭示,三种活动在其主导机制上存在分歧,需要量身定制的空间干预措施来培养它们各自独特的“最优”环境组合。
5.2. 政策启示
基于本研究所揭示的步行、慢跑和骑行与建成环境之间的非线性、阈值和交互特性,政策建议应围绕差异化目标和要素组合展开,摒弃依赖单一指标的线性放大策略。针对每种活动,促进步行应侧重于增加服务和功能密度,优化公交站点的空间布局。对于慢跑,仅仅增加绿地或服务是不够的,有必要在大型开放空间附近创建“体验复合区”,结合低感知拥挤度和充足的配套设施,确保景观质量、宁静度和补给服务的协同作用。对于骑行,应优先考虑网络连通性和换乘便利性,确保在大约800米范围内的“最后一公里”轨道交通接入提供连续、可选的自行车道,并且交叉口和网络更具可达性。
5.3. 局限性与未来研究
尽管本研究采用可解释的机器学习方法揭示了建成环境影响不同类型户外活动的非线性和交互机制,但仍存在一些局限性,为未来研究指明了方向。首先,数据局限性可能影响研究结果的全面性。其次,研究变量的选择有扩展空间。本研究主要考察了建成环境的客观物理属性,虽然引入了街景图像以增强三维感知测量,但对社会环境因素和个体社会经济特征的考虑仍然不足。最后,研究结论的普适性需要进一步验证。
6. 结论
本研究以长沙第二环路内区域为案例,利用多源城市大数据,考察了多种建成环境变量与骑行、慢跑和步行水平之间的关联。通过比较一组预测模型,最终选择了随机森林算法,并结合SHapley加性解释(SHAP)来刻画建成环境变量与三种活动类型之间的非线性关联和交互模式。主要发现如下:首先,活动水平和可达性的度量是所有三种体力活动模型中最有影响力的预测因子之一。其中,公交站点密度(D_BS)、土地利用混合度(LUM)和人口密度(D_P)被确定为最重要的预测因子,共同解释了模型对三种活动类型预测能力的大约60-70%。其次,观察到不同建成环境变量对三种活动类型存在明显的非线性模式和影响阈值。同时,本研究考察了建成环境变量之间复杂的交互作用。值得注意的是,慢跑的交互贡献甚至超过了主效应,表明建成环境的影响是交互作用的,而非独立运行的。在此背景下,政府可以更好地制定政策和指南,以改善目标区域的城市环境,从而鼓励公众参与体力活动,支持健康中国倡议,并促进人口健康。