
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于贝叶斯加性回归树的两阶段抽样设计优化:提升公共卫生调查推断的精准度
【字体: 大 中 小 】 时间:2025年09月09日 来源:Journal of the Royal Statistical Society Series A: Statistics in Society 1.5
编辑推荐:
针对两阶段抽样设计中传统加权法存在权重波动大、模型误设风险高的问题,Xinru Wang团队提出基于贝叶斯加性回归树(BART)的多重插补(MI)方法。研究通过整合一阶段复杂抽样设计特征(如分层和聚类),显著降低了估计偏差和均方根误差(RMSE),在乌干达COVID-19疫苗接种调查中验证了该方法较传统加权法在覆盖率与效率上的优势。
在公共卫生研究中,两阶段抽样设计因其成本效益被广泛采用——先通过概率抽样获取基础数据(Phase I),再从Phase I样本中选取子样本收集高成本指标(Phase II)。然而传统分析方法面临三重困境:一是子样本权重调整会放大Phase I权重的变异性,导致估计不稳定;二是加权模型依赖响应倾向的正确设定,误设会引入偏差;三是Phase I丰富的数据资源未被充分用于提升推断效率。针对这些问题,哥伦比亚大学Xinru Wang团队在《Journal of the Royal Statistical Society Series A: Statistics in Society》发表研究,创新性地将贝叶斯加性回归树(Bayesian Additive Regression Trees, BART)引入两阶段设计的统计推断框架。
研究团队通过三个关键技术突破构建解决方案:首先,将BART与随机截距扩展(rBART)作为核心插补模型,处理连续型(公式4)和分类型(公式6)结局变量;其次,在模型中显式纳入抽样设计变量(分层stratai、聚类clusteri)和权重变量wi;最后采用Rubin多重插补方差估计(公式8-10),解决复杂设计下的统计推断问题。数据来源于乌干达基于人口的HIV影响评估调查(UPHIA2020)的子样本手机调查,包含12,000+人口样本和124个协变量。
模拟验证性能优势
在5种模拟场景中,MI-BART与MI-rBART均展现出显著优势:
低维场景(S1):绝对偏差仅0.03(加权法WT-LGM达0.15),RMSE降低40%
高维场景(S2):即使存在10个噪声变量,覆盖率仍保持94.6%(接近名义水平95%)
协变量偏移场景(S3):当Phase II样本缺失x2极端值时,MI-rBART通过随机截距δj(公式5)将偏差控制在加权法的1/3

实际应用验证
在乌干达COVID-19疫苗接种率估计中:
MI-rBART估计接种率为53.5%(95%CI:50.8%-56.3%),较WT-BART(60.9%)更接近CDC报告值
验证性分析显示,对"过去12个月就医"指标的估计误差仅0.7%,显著优于加权法
该研究首次将BART框架拓展至复杂两阶段调查设计,通过三重创新解决了公共卫生领域的核心挑战:
方法学突破:提出的MI-BART/rBART将偏差降低50%以上,且通过变量重要性分析识别出区域(region)和聚类(cluster)为疫苗接种关键预测因子
实践价值:为资源有限地区(如乌干达)的快速健康评估提供可行方案,UPHIA2020子样本仅需收集5%疫苗接种数据即可实现全国推断
理论贡献:证实Rubin方差公式在复杂设计下的适用性,为后续研究奠定基础
研究同时指出,当Phase II样本存在严重协变量偏移(如S3场景)时,未来可开发半参数BART模型进一步优化。该成果不仅适用于调查统计,对临床试验的外推性研究和流行病学队列分析均有重要启示。
生物通微信公众号
知名企业招聘