用户生成数据预测环境区域游客流量的创新研究——基于西班牙国家公园的实证分析

《Environment and Development Economics》:User-generated data to predict visitors in environmental areas

【字体: 时间:2025年11月06日 来源:Environment and Development Economics 1.5

编辑推荐:

  本刊推荐:针对自然游憩区游客数据获取困难的问题,David Hervés-Pardavila团队开展了用户生成数据预测游客流量的主题研究。通过负二项回归模型(NB2)验证Flickr照片和手机数据在西班牙16个国家公园的预测效能,发现手机数据具有更优的预测能力(RDEV2=0.9),且季节性特征显著影响预测精度。该研究为发展中国家游憩服务价值评估提供了低成本监测方案。

  
在国家公园和自然保护区的管理中,准确掌握游客到访规律是评估游憩生态系统服务价值、合理分配资源和制定保护策略的基础。然而传统依靠人工计数、游客登记等现场监测方法,在面临大面积、空间分散的非保护区时,往往显得力不从心——数据收集成本高昂、耗时费力,在基础设施薄弱的发展中国家尤其突出。更棘手的是,不同保护区的计数标准参差不齐:有的依靠巴士公司报表,有的采用自动车辆计数器,还有的只能通过临时问卷调查估算,导致数据质量差异巨大。这种数据缺口使得政策制定者难以精准评估自然资源的游憩价值,也阻碍了可持续发展战略的实施。
正当传统方法遭遇瓶颈时,数字时代带来了新的曙光。社交媒体的普及和移动设备的泛在化,催生了海量用户生成数据(user-generated data),这些携带地理标记的信息能否成为破解游客监测难题的钥匙?《Environment and Development Economics》最新发表的研究给出了令人振奋的答案。由西班牙圣地亚哥·德孔波斯特拉大学ECOBAS跨学科研究中心的David Hervés-Pardavila领衔的团队,创新性地对比了两种用户生成数据——Flickr照片平台数据和移动电话网络数据,在预测西班牙16个国家公园游客流量方面的表现。研究发现,虽然传统常用的Flickr数据具有一定预测能力,但移动电话数据展现出更稳定、更精准的预测效能,特别是对于游客集中在夏季的山地型国家公园。这一发现不仅为游客监测提供了新思路,更对缺乏监测资源的发展中国家具有重大实践意义。
研究方法上,团队构建了2015-2023年西班牙16个国家公园的面板数据集,整合了三类数据源:国家公园管理局提供的月度游客统计数据、通过Flickr API获取的地理标记照片数据(处理为Flickr用户日FUD),以及西班牙国家统计局发布的移动电话用户日(MPUD)数据。针对计数数据过度离散的特征,研究采用负二项回归模型(NB2)进行建模,通过似然比检验确定公园特异性模型优于混合模型,并运用伪R2(RDEV2)和平均绝对百分比误差(MAPE)评估预测精度。

2. 数据

游客数据来自国家公园自治机构提供的月度统计,存在15%的缺失值,主要集中于冬季闭园时段。Flickr数据通过API接口获取,采用FUD指标消除同一用户单日多次上传的偏差。移动电话数据自2019年7月开始收录,基于手机与基站连接记录,区分国内游客(跨省出行)和国际游客(夜间驻留检测),通过聚合公园所在市政区的数据形成MPUD指标。

3. 方法

研究通过探索性数据分析揭示游客量的季节特征(见图A1),计算斯皮尔曼相关系数后,建立三个负二项回归模型:模型1仅使用Flickr数据(取对数处理),模型2仅使用手机数据,模型3结合两类数据。模型控制公园固定效应、季节虚拟变量(以秋季为基线)和COVID-19封锁期虚拟变量(2020年7月-2021年6月)。通过似然比检验(公式1)确认公园特异性模型的优越性,并使用偏差R2(公式2)衡量模型拟合优度。

4. 结果

4.1 探索性数据分析

数据显示西班牙国家公园年游客量在2015-2017年稳定在1500万左右,疫情期间骤降后逐步恢复。Flickr数据呈持续下降趋势(2015年1252 FUD→2023年299 FUD),反映平台热度衰退,而手机数据则从2019年1690万MPUD增长至2023年4441万MPUD。游客量与FUD相关性较高(ρs=0.68),与MPUD相关性中等(ρs=0.33)。

4.2 负二项回归

公园特异性回归显示,手机数据在多数公园表现更优。如欧洲之巅国家公园(Picos de Europa)使用手机数据的RDEV2=0.9,显著高于Flickr数据的0.77。仅卡瓦涅罗斯(Cabaneros)、内华达山脉(Sierra Nevada)和达伊米尔湿地(Tablas de Daimiel)三公园Flickr数据预测更佳,这些公园游客季节分布较均匀。回归系数显著性检验表明,手机数据在13个公园显著(p<0.1),而Flickr数据仅在11个公园显著,且加那利群岛的加拉霍奈(Garajonay)公园出现反常识的负系数。
预测稳健性检验中,使用2021-2022年数据预测2023年游客量。手机数据在5个公园MAPE低于25%(如内华达山脉20.4%),Flickr数据在4个公园表现更优(如奥尔德萨峰0.18%)。研究发现预测精度与公园游客季节集中度(夏季游客占比)呈正相关(ρs=0.46-0.5),而与游客总量相关性较弱。

5. 讨论与结论

研究验证了用户生成数据替代传统监测方法的可行性,与既往研究结论相互印证。Sessions等(2016)报道的Flickr系数β=0.649与本研究的0.13-0.47区间接近,Wood等(2020)在线性模型中获得的R2=0.79与本研究的最高RDEV2=0.9具有可比性。手机数据虽相关性(ρs=0.33)低于Fisher等(2019)报告的0.56,但因其避免人口结构偏差、数据稳定性强,展现出更大应用潜力。
本研究的实践意义在于为资源有限地区提供低成本监测方案。特别值得注意的是,用户生成数据在官方统计质量较差的公园(如塔布里恩特火山口 Caldera de Taburiente)仍能有效捕捉游客模式,暗示其在数据基础设施薄弱地区可能发挥更大作用。未来研究可探索机器学习模型(如支持向量回归)或小波分析等技术提升预测精度,并拓展至更广泛的自然游憩区域。
最终结论强调,移动电话数据作为"被动生成"数据源,能有效克服社交媒体的用户群体偏差和平台流行度波动问题,尤其适用于游客量季节波动显著的自然区域。这一发现不仅为游憩生态系统服务价值评估提供新方法论支持,更对全球范围内特别是发展中国家的保护地可持续发展决策具有重要参考价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号