利用人口统计学与环境数据预测新西兰居民主观幸福感:随机森林模型的效能评估

【字体: 时间:2025年02月26日 来源:Scientific Reports 3.8

编辑推荐:

  为解决新西兰居民幸福感研究数据不足问题,奥克兰理工大学(AUT)研究人员开展用人口统计学和环境数据预测主观幸福感研究,结果表明随机森林模型有一定预测效能,对政策制定有意义。

  

研究背景

在全球范围内,人们越来越意识到,衡量一个社会是否繁荣,不能只看 GDP(国内生产总值)。人口幸福感作为反映社会繁荣程度的关键指标,正受到各国政府的高度重视。新西兰政府为了提升民众的整体幸福感,于 2019 年推出了 “幸福感预算”。然而,理解幸福感并非易事,其概念不断演变,不同研究者有着不同的观点 。
在新西兰,目前用于评估居民幸福感的主要数据来源是新西兰综合社会调查(New Zealand General Social Survey,GSS)。该调查每两年进行一次,样本量约为 9000 人,能提供 12 个领域的幸福感数据,包括健康、住房、收入等,其中我们主要关注主观幸福感领域的指标,像生活满意度、生活意义感、家庭幸福感和心理健康状况等。但 GSS 的样本量存在局限性,一些特定的亚群体(如居住在政府资助社会住房中的人群)在调查中代表性不足,这使得我们难以全面评估政府政策对这些群体幸福感的影响。因此,获取全面的人口层面幸福感数据迫在眉睫。
为了解决这些问题,奥克兰理工大学(AUT)的研究人员开展了一项极具意义的研究,旨在利用新西兰人口普查(Census)中的社会人口统计信息和网格街区层面的环境指标,来预测 GSS 中衍生出的幸福感指标。该研究成果对于深入理解新西兰居民的幸福感状况,以及为政府制定更有效的政策具有重要价值。

研究方法

  1. 数据来源:研究数据来自三个数据集,分别是 GSS、新西兰人口和住房普查数据以及健康地点指数(Healthy Location Index,HLI)数据集。其中,GSS 和人口普查数据存储于新西兰综合数据基础设施(Integrated Data Infrastructure,IDI)中,可通过 Stats NZ 唯一标识符变量进行关联。HLI 数据集虽不在 IDI 中,但由 Stats NZ 导入数据环境。研究选取了 2018 年的 GSS 数据(样本量 8793)、2018 年人口普查数据(约 490 万条观测数据,选取 29 个变量)以及 HLI 数据(13 个变量),经数据清洗后,最终得到 5658 条观测数据和 42 个预测变量。
  2. 建模:研究人员运用了三种不同复杂程度的预测模型,分别是逐步线性回归(Stepwise Linear Regression)、弹性网络回归(Elastic Net Regression)和随机森林(Random Forest)模型。这三种模型均使用 R 语言中 “caret” 包的 “train” 函数实现,并通过计算类权重来缓解数据集中的类不平衡问题。建模过程中,先将数据集按 70:30 的比例划分为训练集和测试集,对训练集进行十折交叉验证以选择最佳模型参数,最后在测试集上评估模型性能,评估指标包括均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2) 。

研究结果

  1. 模型性能比较:随机森林模型在预测四个幸福感变量(生活满意度、生活价值感、家庭幸福感和心理健康)时表现最佳,其 RMSE 值较低(生活满意度、生活价值感和家庭幸福感的 RMSE 在 1.5 - 1.6 之间),预测值与观测值更为接近。相比之下,传统的逐步回归和弹性网络回归模型的 RMSE 值较高(约 2.5),R2 值更低(<0.003)。
  2. 环境变量的影响:纳入 HLI 数据集的环境变量对随机森林模型的预测能力影响较小。尽管环境变量在变量重要性评估中位列前十,但这可能并不意味着它们对主观幸福感有因果影响。这或许是因为环境变量与已纳入分析的社会人口统计变量存在关联,且 HLI 数据主要衡量的是与环境要素的接近程度,未考虑设施的数量、种类和质量等因素。
  3. 模型预测的局限性:虽然模型预测有一定合理性,但仍存在局限。例如,GSS 2018 数据集中幸福感数据的响应分布不均衡,导致模型预测值聚集在特定分数区间,与观测值的相关性较弱(相关系数在 0.202 - 0.250 之间)。此外,数据集中缺失值的处理以及主观幸福感数据的主观性和复杂性,也给模型预测带来了挑战 。

研究结论与讨论

本研究评估了人口层面的社会人口统计变量和环境变量对预测 GSS 主观幸福感结果的效能,结果表明随机森林模型在预测幸福感结果方面具有一定优势,但其 R2 值较低,说明模型解释能力有限,无法充分捕捉个体幸福感结果的差异。
该研究为利用预测模型技术预测幸福感结果提供了有价值的见解,但仍有很大改进空间。未来研究可以通过优化建模方法、纳入更多样化的数据来源(如 IDI 中的健康数据)以及采用先进的分析方法(如深度学习),更准确、全面地理解人口幸福感,为基于证据的政策制定提供有力工具,助力提升新西兰居民的整体幸福感。
目前暂未提及该论文发表在哪个期刊。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号