
-
生物通官微
陪你抓住生命科技
跳动的脉搏
两步法校正非概率样本中选择偏倚与误分类偏倚的创新研究:针对难接触人群的流行病学应用
【字体: 大 中 小 】 时间:2025年06月22日 来源:American Journal of Epidemiology 5.0
编辑推荐:
本研究针对难接触人群(如LGBTQ+)非概率样本中存在的选择偏倚和概率样本中误分类偏倚的双重问题,提出了一种新型两步校正方法。通过整合倾向评分(ALP)和多重插补技术,在模拟数据中显著降低了估计偏差,特别是在高误分类率场景下表现优异。该方法为公共卫生领域获取少数群体准确健康数据提供了可靠工具。
在公共卫生研究中,获取性少数群体(如男男性行为者/MSM)的准确健康数据始终面临双重挑战:一方面,通过社区招募的非概率样本存在严重选择偏倚(selection bias),参与者往往不能代表目标人群;另一方面,政府主导的概率样本中,受访者可能隐瞒真实性取向,导致关键变量Ap出现误分类偏倚(misclassification bias)。传统的数据整合方法如调整逻辑倾向评分(Adjusted Logistic Propensity, ALP)假设概率样本数据完全准确,这在实际研究中往往难以满足,亟需开发能同时校正两种偏倚的创新方法。
多伦多大学公共卫生学院Christoffer Dharma领衔的研究团队在《American Journal of Epidemiology》发表的研究中,提出了一种革命性的两步校正法。该方法首先通过贝叶斯建模估计误分类概率pi=1-NPV(阴性预测值),生成真实状态变量?;随后应用ALP方法整合校正后的概率样本sp|?=1与非概率样本sc,最终获得无偏的流行率估计μ1。研究创新性地推导出误分类概率的解析表达式:pi=[(1-PPV)/PPV]×[Pr(Ap=1|x)/1-Pr(Ap=1|x)],为偏倚校正提供了理论依据。
关键技术方法包括:1)使用加拿大社区健康调查(CCHS)作为概率样本(n=77,259)和Sex Now社区调查作为非概率样本(n=7,489);2)开发基于倾向评分的加权算法(ALP);3)应用多重插补处理误分类数据;4)采用bootstrap法(B=200)进行方差估计。研究通过模拟验证了方法在低(5-7%)、中(15-20%)、高(55-60%)三种误分类场景下的稳健性。
在N=1,000,000的模拟人群中,传统未加权估计器表现出24.23%的相对偏倚(RB),而两步法在所有误分类场景下均显著改善估计精度:在高度误分类时,将RB从-17.99%(传统ALP)降低至-2.13%;方差比(VR)稳定在1.09左右,覆盖率(CP)达96%。值得注意的是,当使用M=10次插补时,结果与单次插补高度一致(ΔRB<0.2%),证实了方法的稳定性。
在估计SMM人群社会连接度指标时,两步法给出的流行率估计与标准ALP方法相近:孤独感流行率为47.09%(45.62-49.31)vs 47.45%(45.88-49.29);与SMM强连接度为34.63%(33.27-36.90)vs 35.01%(33.67-37.11)。这种微小差异提示在本研究的具体应用中,偏倚影响可能有限,但方法的价值在偏倚更显著的其他场景中将更为突出。
该研究首次实现了对非概率样本选择偏倚和概率样本误分类偏倚的同步校正,特别是在性少数群体健康研究中具有里程碑意义。方法论创新体现在:1)建立了误分类概率的通用计算框架;2)开发了可处理复杂调查设计的bootstrap方差估计器;3)验证了方法在高误分类率(>50%)场景下的有效性。实际应用表明,当研究LGBTQ+等边缘化群体时,收集参与者"在政府调查中披露身份的可能性"这类元信息至关重要。未来研究可扩展至其他健康结局测量(如HIV流行率),并探索方法在暴露-结局关联分析中的应用潜力。该成果为公共卫生决策提供了更可靠的数据校正工具,尤其适用于存在社会污名化问题的健康差异研究。
生物通微信公众号
知名企业招聘