一种基于数据的行人导向路线规划框架,利用深度学习和空间感知技术
《International Journal of Applied Earth Observation and Geoinformation》:A Data-Driven framework for pedestrian oriented route planning leveraging deep learning and spatial perception
【字体:
大
中
小
】
时间:2025年11月06日
来源:International Journal of Applied Earth Observation and Geoinformation 8.6
编辑推荐:
个体基于对城市环境的感知选择不同的行走路线。本研究提出一种框架,利用360度谷歌街景图像(GSVI)和深度学习模型提取城市特征,量化美丽、安全、活力和无聊等感知属性,并结合道路网络生成多目标优化路径。在孟买和巴黎的数据集上验证了OCRNet、PPYOLOE+x和DINOv3等模型的性能,其中OCRNet的语义分割IoU达到72.13%,RF分类器准确率超过90%。通过构建感知地图和优化算法,发现高密度商业区(如孟买Bandra West)的活力和安全感知评分最高,而贫民窟(如Dharavi)则因缺乏绿植和设施导致评分较低。研究为城市规划者提供了数据驱动的决策工具,促进步行出行并减少碳排放。
在当今快速城市化的背景下,人们的步行行为往往受到周围城市环境的感知影响。尽管已有大量研究致力于量化人们对城市环境的感知,但这些研究尚未充分探讨如何将这种感知驱动的选择融入步行友好性的提升中。为此,本研究提出了一种新的框架,利用360度Google街景图像(GSVI),这些图像作为深度学习(DL)模型的输入,以提取有助于预测各类感知属性(如美丽、无聊、安全、生动)的信息特征。这些感知属性是通过一次主要的调查收集的,并与孟买市的路网以100米间隔进行整合。研究进一步提出一个多目标函数,旨在最小化距离并最大化感知,从而提供优质的步行路线。研究中使用的OCRNet模型和预训练的PPYOLOE + x模型分别达到了72.13%和51.4%的高mIoU得分,而基于Transformer的先进模型DINOv3则用于比较分析和模型泛化性评估。感知模型还取得了超过90%的高准确率。在不同的城市建成环境中,观察到路线存在显著差异。这些成果可以支持城市空间的合理规划,从而鼓励步行,减少碳排放。
步行路线的选择通常依赖于传统的最短或最快路径算法,而近年来,Google地图推出了替代交通选项,旨在减少汽车使用,促进公共交通,从而降低排放。这一功能目前仅在部分欧洲城市中提供。然而,现有的路线规划往往忽略了城市景观的感知因素,这会降低步行的吸引力,并且对基于偏好的路线选择不够支持。这种缺失会影响人们的体力活动,并增加对汽车的依赖,进而加剧排放问题。因此,研究如何将感知因素融入路线规划,以提高步行的吸引力和便利性,成为当前城市规划和可持续交通研究的重要课题。
感知在城市规划和步行性中扮演着关键角色。城市环境的感知包括视觉属性和步行性,这些因素往往比物理特征更能影响行人行为。景观因素如安全、宁静、美观、绿化、开放性和可达性塑造了人们对场所的感觉。感知是一种认知过程,个体通过视觉线索如颜色、纹理、形状和空间布局进行解释。城市规划和公共卫生理论强调,步行不仅受物理特征影响,还受人们如何体验这些特征的影响。感知往往比实际指标如犯罪率或距离更能引导路线选择。例如,照明、绿化和长椅等元素可以鼓励更长、更愉快的步行体验。由于步行通常用于短途出行,将其与交通规划相结合可以提升最后一公里的连接性。
街景图像(SVI)在评估行人感知方面具有可扩展性。像Google街景(GSV)这样的平台提供了全景图像,捕捉了街道的物理和社会维度。这些图像有助于分析视觉元素,如封闭性和空间布局。随着深度学习技术的进步,现在可以利用SVI提取感知特征,从而量化安全、绿化、封闭性和美观性等属性。GSV基于的虚拟审计显示出与物理审计的强一致性。SVI还可以通过在路线规划中整合因素如阴影和热舒适性,来帮助建模行人偏好。深度学习,包括基于自然语言处理(NLP)的方法,比传统的视觉特征更能捕捉人类的感知。在广州市,积极的感知(如安全、美丽和生动)与更多的体力活动相关,而无聊和抑郁则减少了参与度。大规模分析也表明,更多的机动车会降低感知的安全性。多任务深度学习模型,如注意力网络,进一步提高了城市感知质量的分类能力。尽管这些方法已被证明有效,但它们大多应用于欧洲和北美等正式结构化的城市。
为了克服这些挑战,本研究提出了一种利用GSVI来展示感知在导航中的应用的框架。这一框架的主要贡献包括:(1)实施和验证深度学习模型,包括OCRNet(语义分割)、PP-YOLOE + x(目标检测)和DINOv3(语义分割和目标检测),以从复杂的印度和巴黎街道景观中提取城市特征,这是文献中尚未探索的模态;(2)构建了印度城市(孟买)的第一个大规模、高分辨率的感知地理数据库,将安全、美丽和生动等关键感知属性映射到路网中;(3)进行了跨情境的泛化性分析,展示了感知模型在发展中国家(孟买)和发达国家(巴黎)之间的适用性,揭示了感知属性在不同城市和社区中的差异;(4)进行了新颖的城内感知多样性分析,揭示了不同建成形式(如规划社区和非正式聚居区)之间显著的感知差异,这是一个在发展中国家城市中被忽视但至关重要的方面;(5)设计并实施了一个多目标行人路线算法,该算法在步行距离和感知质量之间取得平衡,并通过在不同城市环境中的案例研究验证了其实用性。
研究方法采用了系统化的流程,以开发基于感知的路线系统。该方法包括数据收集、特征提取、进行感知调查、计算感知评分、基于感知属性进行预测、生成感知地图和基于感知的路线规划。每一步都将被详细阐述。图1展示了本研究方法的概述。图2展示了研究区域,以OpenStreetMap(OSM)作为底图,并展示了OSM路网。图3展示了GSVI的收集(a)OSM路网(b)在路网中以100米间隔采集GSVI的采样点(c)将采样点提供给GSVI API(d)在单个采样点上捕捉六个方向的街景图像,每个图像的视野为60度,15度的垂直视角。总共收集了大约483,428张GSVI图像。由于某些位置的图像缺失,实际收集的数量少于120,287 × 6。
为了提取有意义的高层特征,用于感知分析,研究采用了语义分割(SS)和目标检测(OD)模型。这些特征反映了人与环境的互动,捕捉了关键的场景元素。对于SS,OCRNet深度学习模型被训练在IDD数据集上,包含12,872张训练图像和1,995张测试图像。OCRNet的物体-上下文模块通过建模物体与其周围环境的关系,提高了上下文理解。对于OD,使用了预训练的PPYOLOE + x模型,在COCO数据集上进行训练。这种无锚点模型结合了强大的主干网络和CSPRepResStage颈部网络,以实现稳健的性能和高效的部署。训练后,SS输出用于计算像素级类别组成百分比,而OD输出提供了每张图像的类别计数。提取的26个SS类别和10个OD类别被组合成一个全面的特征数据库,作为训练感知预测模型的输入。
除了这个CNN管道,我们的主要框架还结合了最先进的视觉Transformer(ViT)架构,特别是DINOv3,其主干网络有70亿个参数。对于我们的任务,我们采用了一种微调DINOv3的方法,为SS任务适配了一个轻量级的适配器头。这个头最初在ADE20K数据集(150个类别)上进行预训练,随后在IDD数据集的26个类别上进行微调,而OD头则在COCO数据集上保持预训练。这种配置还产生了36维的特征向量,结合了自监督ViTs的表示能力与计算效率。为了进一步评估鲁棒性,我们还评估了完全预训练的DINOv3变体(70亿参数的主干网络,适配器头在ADE20K上训练SS,在COCO上训练OD),其产生的230维特征集(150个SS类别和80个OD类别)不需要微调。这种更大的特征空间使我们能够研究更丰富的、高维的表示是否能提高感知预测。这些三个管道(i)基于CNN的OCRNet + PPYOLOE + x(36个特征),(ii)微调的DINOv3(36个特征),以及(iii)预训练的DINOv3(230个特征)构成了我们的消融实验基础。它们在孟买和巴黎数据集上的比较性能将在结果部分呈现。
为了预测感知评分,我们开发了机器学习模型。由于Data3中的评分是基于成对比较得出的,我们采用了一种方法,通过Dubey等人(2016)和Zhang等人(2018)的适应方法,将它们转换为图像级别的评分。这种方法使用公式(1)和(2)来计算评分,基于每张图像的胜负记录和数据集中偏好分布。我们还通过比较不同分类器的性能,如随机森林(RF)、支持向量机(SVM)、XGBoost和更强的MLP变体RealMLP,展示了它们在预测感知评分方面的表现。所有模型在四个感知属性(美丽、无聊、生动、安全)上的表现大致相似,并且通过t检验(p < 0.05)验证了观察到的差异不具有统计学意义。这表明感知预测任务不被单一分类器主导,而是可以被多种算法可靠处理。尽管缺乏显著的性能差异,RF最终被选为集成到路线框架中的分类器。选择RF的原因有三个:(i)它在两个城市和所有感知属性上表现稳定;(ii)它比其他分类器在计算上更高效;(iii)它提供了通过特征重要性分析的可解释性,这对于理解影响感知的环境元素至关重要。
为了评估Data3在捕捉本地感知方面的效果,我们在孟买进行了感知调查,使用了280张图像(Data4),这些图像代表了不同的景观和社区。自愿参与的调查对象年龄在20-65岁之间,性别分布为60%男性和40%女性。每张图像由五位参与者在1-5的评分尺度上对四个感知方面(美丽、无聊、生动和安全)进行评分,共获得1000次总评分。为了减少个体偏差,每张图像的平均评分被计算出来,并被缩放到1-10的范围,以便与Place Pulse 2.0进行比较。Place Pulse 2.0数据集原本覆盖了28个国家的56个城市,现在已扩展到包括我们的孟买(本地调查)数据的57个城市。随后,训练好的RF模型被应用于调查数据进行分析。
在孟买进行的本地调查数据被用来测试所有训练好的分类器在不同特征提取管道(基于CNN的36个特征、微调的DINOv3的36个特征和预训练的DINOv3的230个特征)上的泛化能力。为了比较,我们还使用56个城市的数据(55个原始城市 + 孟买)对巴黎数据进行评估,以测试城市间的鲁棒性。这种实验设计使我们能够解决三个关键问题:(i)全球训练的模型在本地印度情境下的转移效果;(ii)特定分类器(如RF、SVM、XGBoost、RealMLP)是否在泛化方面具有优势;(iii)高维DINOv3特征是否比基于CNN的特征在预测稳定性方面有所提高。
通过使用Pearson相关性分析,我们研究了CNN特征与四个感知属性(安全、生动、美丽和无聊)之间的关系。Pearson相关系数范围从-1到1,-1表示强负相关,1表示强正相关。通过检查这些相关性,我们了解到特定特征如何影响我们对安全、生动、美丽和无聊的视觉环境感知。研究结果表明,对于CNN特征,美丽的场景由植被、绿化、电线杆、墙壁、自行车和人/人OD(目标检测)等元素构成,突显了自然和人类存在的共同作用;无聊则主要由人和人OD驱动,偶尔由植被贡献,表明拥挤和缺乏区别的存在会降低独特性;生动则由天空、植被、人/人OD和墙壁支持,表明活力通过开放性、绿化和活动的共存而产生;安全则始终依赖于人/人OD、建筑、墙壁、停车和围栏,反映了安全如何扎根于社会存在和建筑基础设施。相比之下,巴黎则展现出不同的结构:美丽和生动与建筑、天空、城市家具和移动特征(如汽车、骑手和摩托车)相关,而无聊和安全则强调结构和基础设施线索,包括建筑、道路、桥梁和围栏。这些模式表明,孟买的感知景观是人和自然中心的,而巴黎的感知景观则是基础设施和移动中心的,突显了文化和城市背景如何中介环境感知。
感知预测结果展示了所有测试分类器(RF、SVM、XGBoost、RealMLP)和特征提取管道(基于CNN的36个特征、微调的DINOv3的36个特征和预训练的DINOv3的230个特征)在四个感知属性(美丽、无聊、生动、安全)上的表现。结果分为三部分:整体性能、特征重要性和泛化分析。所有测试的分类器在四个感知属性上的表现大致相似。表6总结了孟买和巴黎的最佳δ阈值、最佳模型和相应的F1得分。尽管RF、SVM、RealMLP和XGBoost分别在不同情况下成为最佳模型,但配对的统计测试(t检验,p < 0.05)确认了分类器之间的差异并不显著。δ阈值的敏感性分析表明,最佳值因城市和感知属性而异。在孟买,δ值在1.2到1.6之间通常取得最佳结果,而巴黎则更倾向于较高的阈值(δ ≈ 1.8)。在两个城市中,美丽、安全和生动在所有模型上表现出稳定的性能,而孟买中的无聊则表现出更多的波动。
通过感知评分的整合和路线规划模块的生成,我们实现了感知驱动的路线。训练好的模型被应用于孟买的GSVI数据集(Data5)。由于模型输出是二进制(-1或1),我们使用RF模型的置信度得分(0到1)将预测转换为连续的感知评分。这些评分被缩放到0到10的范围,并在每个采样点上平均不同视野(FOV)的图像得分,以减少视角偏差。感知评分被映射到路网的100米间隔上。当视野缺失时,使用可用图像的平均值。为了分析不同土地利用类型之间的感知变化,沿道路应用了20米的缓冲区,并与从Dabra和Kumar(2023)获得的土地利用形状文件(商业、住宅、贫民窟群等)相交。
为了生成感知驱动的路线,我们使用GIS工具开发了拓扑上正确的路网。算法考虑了路网图G(V,E),其中V表示顶点,E表示边作为输入。路线在任何两个地点i和j之间进行计算,其中i和j属于I,且i ≠ j。路线的计算目标是同时最大化感知评分(见公式4)和最小化行驶距离(见公式5)。公式(6)展示了通过线性加权组合(LWC)方法开发的最终目标函数(Obj)。考虑指数函数进行加权组合,确保Obj的值始终为正,这是路线算法所需的。权重的总和始终为1,如公式(7)所述。这里,w1和w2分别对应于距离和感知评分的权重。我们使用Dijkstra算法解决目标函数,这是一种广泛用于最短路径问题的技术。该算法在三种情况下进行了实施:(1)距离最小化(Obj1):路线仅基于最短距离计算;(2)感知最大化(Obj2):路线仅基于感知评分计算;(3)距离和感知之间的平衡(Obj3):通过等权重平衡距离和感知,我们旨在实现平衡的方法。生成的函数Obj3提供了在最小化距离和最大化感知方面的路线。
研究结果部分展示了特征提取模型的成果。OCRNet在语义分割(SS)任务中达到了72.13%的平均交并比(mIoU),在道路(0.94 IoU)、建筑(0.79 IoU)和植被(0.89 IoU)等类别中表现尤为出色。目标检测(OD)模型PPYOLOE + x达到了稳健的平均精度(mAP)51.4%,成功检测了主要的街道对象。图7展示了OCRNet和PPYOLOE + x模型在SS和OD任务中的特征提取,每个图像样本下方标注了每个类别的面积比(%)和计数。某些类别,如交通灯(0.37 IoU),由于训练实例有限,表现不佳。我们还测试了在IDD上微调的DINOv3模型,其整体性能为47 mIoU(由于样本较少)。然而,它在ADE20K和IDD共有的19个主要类别上表现良好。我们还测试了具有230个特征的预训练DINOv3变体(150个ADE20K SS类别和80个COCO OD类别)。
感知预测结果展示了在多个分类器(RF、SVM、XGBoost、RealMLP)和特征提取管道(基于CNN的36个特征、微调的DINOv3的36个特征和预训练的DINOv3的230个特征)上的表现。结果分为三部分:整体性能、特征重要性和泛化分析。所有测试的分类器在四个感知属性上的表现大致相似。表6总结了孟买和巴黎的最佳δ阈值、最佳模型和相应的F1得分。尽管RF、SVM、RealMLP和XGBoost分别在不同情况下成为最佳模型,但配对的统计测试(t检验,p < 0.05)确认了分类器之间的差异并不显著。δ阈值的敏感性分析表明,最佳值因城市和感知属性而异。在孟买,δ值在1.2到1.6之间通常取得最佳结果,而巴黎则更倾向于较高的阈值(δ ≈ 1.8)。在两个城市中,美丽、安全和生动在所有模型上表现出稳定的性能,而孟买中的无聊则表现出更多的波动。
感知评分的整合和路线规划模块的生成使我们能够分析城市感知的空间模式。感知评分通过50米的六边形网格进行汇总,排除了没有街景图像的位置。使用Queen连通性空间权重矩阵(最多六个邻居)应用了本地莫兰指数(Local Moran’s I),以识别统计上显著的(p < 0.05)集群。图11和图12展示了孟买路网中感知属性的空间集群,使用Local Moran’s I来识别显著的高-高(HH)、低-低(LL)、高-低(HL)和低-高(LH)集群。对于美丽感知(图11和图12),HH集群集中在规划良好的社区和绿地中,如卫星图像所示(a2),而LL集群则主导非正式聚居区和工业区,这些区域有密集且不规则的发展(a3)。相比之下,无聊感知(图11和图12)的HH集群沿着单调的高速公路和低密度住宅区(b2),而LL集群则出现在动态、混合用途的区域(b3)。这些模式表明,孟买的感知景观是人和自然中心的,而巴黎的感知景观则是基础设施和移动中心的,突显了文化和城市背景如何中介环境感知。
图13展示了孟买某些区域的感知评分预测,这些区域的感知属性包括美丽、无聊、生动和安全。图14展示了不同土地利用类型之间的感知变化。这些结果表明,感知评分在不同土地利用类型中存在显著差异,这对城市规划和政策制定具有重要意义。识别这些空间集群为城市规划提供了关键的见解,使政策制定者能够针对特定区域进行干预,从而改善步行环境和促进健康的生活方式。
感知驱动的路线规划在不同城市环境中展现出显著的差异。在规划良好的区域,如孟买西部的A1区域,距离优化的路线(Obj1)覆盖了244米,而感知优化的路线(Obj2)则达到了354-352米。在非正式聚居区A2,感知优化的路线(Obj2)在安全感知方面达到了834米,反映了动态环境特征(如图18b中的高活动区域)的影响。综合优化(Obj3)生成的路线在距离和感知质量之间取得平衡,通常偏离Obj1和Obj2的路径。尽管这些路线可能稍长,但它们可能通过优先选择愉悦的环境来提高步行性。这些结果表明,将感知属性整合到路线规划中可以显著影响最优路径选择,从而为城市移动性和用户体验提供新的视角。
感知在提升步行性中的作用对城市规划者和政策制定者具有重要意义。感知驱动的路线规划可以满足不同年龄群体和无障碍需求,这些在现有系统中常常被忽视。这种方法不仅鼓励步行,减少对机动车的依赖,从而降低排放,还能够支持数据驱动的基础设施干预,如优化监控位置或在特定区域增强绿化。感知与健康结果之间的相关性突显了设计促进步行的环境的重要性。随着时间的推移,分析基于感知的路线可以揭示人口模式,指导交通和自行车基础设施的布局,并支持有针对性的城市干预,从而塑造更加包容、健康和步行友好的城市。
尽管本研究在感知驱动的路线规划方面取得了显著成果,但仍存在一些局限性和挑战。首先,环境因素的整合对于步行性评估和路线规划工具至关重要。例如,高温和太阳辐射会使步行变得不适,而空气污染和交通拥堵则会使步行变得不愉快甚至危险。未来的研究应致力于将这些因素与传统的步行性指标相结合,以开发更复杂的模型,从而更好地预测行人行为并支持城市规划决策。其次,我们排除了中间感知评分的数据,以保持二分类的清晰性。然而,这可能会限制模型捕捉人类感知的细微差别。未来的研究可以探索这些评分,以更好地理解不同人口和文化群体的多样化反应。第三,静态GSVI数据的使用限制了对时间依赖性变化(如交通、照明和行人活动)的反映。在更实际的应用中,可以通过生成模型或使用基于物理的模拟引擎结合3D城市模型来生成合成数据,这种方法可能更适合发展中国家的城市,如印度。第四,GSVI图像的质量因来源不同而异,包括来自不同用户的众包数据。这可能导致数据质量和分辨率的大幅波动。虽然我们手动过滤了大量图像以确保模型的有效训练,但未来的研究应致力于开发自动化算法来解决这一问题。这一挑战也可以通过将GSVI数据与其他数据源进行比较来解决。第五,目前的模型没有提取或分析城市场景中的文本。未来的研究可以使用文本识别技术来增强上下文理解,提高基于感知的映射能力。第六,路线规划没有实时数据,如交通状况。将实时交通、天气或社交媒体数据整合到系统中可以提高系统的准确性和相关性,这是未来研究的一个方向。第七,我们仅使用了有限的本地调查数据进行验证,这受到资源限制的影响。虽然Place Pulse与印度的感知一致,但需要更深入的分析以确保人口代表性。未来的研究应包括更广泛地区域的数据,并使用迁移学习来适应本地数据集,以实现更情境化的结果。
综上所述,本研究通过引入基于感知的框架,解决了现有导航系统中的关键空白,该框架利用360度GSVI来整合城市感知特征,如安全和绿化,这些特征已知会影响步行行为。我们不仅在孟买进行了实施,还展示了该方法在巴黎的可扩展性和泛化性。通过使用OCRNet、PP-YOLOE + x和DINOv3等深度学习模型,我们准确提取并量化了相关图像特征。通过将感知评分整合到路网中,我们创建了感知地图,揭示了不同建成类型中的感知变化。我们的分析表明,这些变化是特定于建成类型,如住宅区、商业区和非正式聚居区等的。这种分析在文献中尚未见报道,我们是首次尝试这一研究方向。生成的路线不仅考虑了距离,还考虑了环境的美学和安全因素。这项研究具有重要的潜力,为城市规划利益相关者提供了宝贵的见解。通过让用户选择与他们偏好一致的路线,该框架可以促进步行,鼓励更健康的生活方式,并有助于设计更加可持续和宜居的城市。在本研究中,我们开发了印度城市(孟买)的第一个基于机器学习的感知中心性地图模型。这些模型提供了城市的加权表示,并有可能重塑我们对城市地理和空间经济摩擦拓扑的理解。下一步是使用行人流量数据验证其重要性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号