基于机器学习混合模型的小区域计数数据预测方法研究及其应用

【字体: 时间:2025年06月03日 来源:Computational Statistics & Data Analysis 1.5

编辑推荐:

  本研究针对小区域估计(SAE)中计数数据的过离散和非线性关系难题,创新性地将广义混合效应随机森林(GMERF)和混合效应随机森林(MERF)扩展到计数数据领域。通过模拟研究和墨西哥格雷罗州实证分析,证实GMERF在满足泊松假设时表现优异,而MERF在严重过离散场景下更具优势。提出的参数/半参数自助法有效评估了估计不确定性,为人口健康指标的空间精细化估计提供了新工具。

  

在人口健康和社会经济调查中,准确估计小区域水平的离散型指标(如疾病发病次数、教育年限等)一直面临双重挑战:传统线性混合模型(LMM)难以捕捉复杂的非线性关系,而泊松广义线性混合模型(GLMM)对过离散数据又显得力不从心。更棘手的是,许多发展中国家的小区域样本量严重不足,如墨西哥格雷罗州81个市镇中有41个完全缺失调查数据。这些现实困境催生了统计方法学的创新需求。

针对这一科学问题,研究人员在《Computational Statistics》发表的研究工作中,开创性地将两种机器学习方法——广义混合效应随机森林(GMERF)和混合效应随机森林(MERF)应用于计数数据的小区域估计。通过模型构建、参数估计、自助法不确定性评估等技术路线,系统比较了这些方法与经典EBPP(经验最佳预测)的优劣。研究特别关注了教育年限这一典型计数指标,利用墨西哥国家统计局的普查微数据和ENIGH调查数据构建验证体系。

研究方法上,团队首先建立了包含随机效应的半参数单元级模型,其中固定效应部分由随机森林拟合,随机效应则捕捉区域异质性。通过惩罚拟似然(PQL)和EM算法解决GLMM的高维积分难题,并创新性地采用线性化响应变量和加权伪模型策略。针对过离散问题,同时评估了泊松和负二项分布假设下的模型表现。在不确定性量化方面,开发了参数、半参数和非参数三类自助法,分别适用于不同分布假设场景。

在"广义半参数单元级模型"部分,研究构建了包含随机森林固定效应和区域随机效应的混合模型框架。公式显示线性预测变量ηij=f(xij)+νi,其中f(·)由随机森林定义,νi~N(0,σ2ν)。通过对数连接函数将均值μij与线性预测变量关联,即μij=exp(ηij)。该方法巧妙地将机器学习灵活性与混合模型层次结构相结合。

"区域水平估计量"部分提出了基于预测线性变量的面积水平均值估计量。对于抽样区域,估计量包含随机森林预测和区域随机效应校正;对于非抽样区域,则仅使用随机森林的固定效应预测。这种设计既保证了模型在数据丰富区域的精度,又通过机器学习的外推能力解决了无样本区域的估计难题。

"不确定性估计"章节比较了三种自助法表现。参数自助法在泊松假设成立时表现最佳,但在负二项分布场景下会出现严重低估;半参数自助法通过皮尔逊残差调整,对适度过离散数据具有稳健性;而非参数自助法则在严重过离散时展现出优势。模拟显示,当尺度参数s=3时,半参数自助法的相对RMSE偏差仅为5.81%,远优于参数法的-26.94%。

模型模拟研究设置了四个代表性场景:"Normal-Poisson"验证基础性能,"Interaction-Poisson"测试非线性效应,"NB3"和"NB1"分别对应中度与严重过离散。结果显示在"Interaction-Poisson"场景下,GMERF的RMSE(1.43)显著优于EBPP(1.545);而在严重过离散的"NB1"场景中,MERF以5.616的RMSE表现最佳,明显优于GMERF的8.246。

应用研究聚焦墨西哥格雷罗州女性受教育年限估计。通过部分依赖图(PDP)和变量重要性图(VIP)发现,工作经验(jexp)、家庭收入(inglabpc)和相对教育水平(escol_rel_hog)是关键预测因子。实际数据分析显示,当采用相同协变量集时,GMERF和MERF的变异系数(CV)差异不足1%,但都比EBPP降低约40%,印证了机器学习方法的优势。

设计模拟进一步验证了方法的实用性。从普查数据重复抽取500个与原始调查同结构的样本,结果显示对于抽样区域,GMERF和MERF的RMSE中位数分别为0.1933和0.2051,显著低于EBPP的0.4563;非抽样区域的改善更为明显,MERF将RMSE从EBPP的0.3510降至0.2460。

这项研究在方法学上取得了三项重要突破:一是首次将GMERF框架扩展到计数数据,丰富了小区域估计的方法工具箱;二是证实MERF处理严重过离散数据的独特价值,弥补了传统方法的不足;三是发展的自助法体系为不同场景下的不确定性量化提供了系统解决方案。实际应用表明,这些方法能有效提升发展中国家教育健康指标的估计精度,特别是针对数据稀疏区域。未来研究可进一步探索分位数估计、负二项分布扩展等方向,推动机器学习与官方统计的深度融合。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号