非随机抽样与非随机不回答下的统计推断:一种经验似然方法及其应用
《Journal of Survey Statistics and Methodology》:STATISTICAL INFERENCE UNDER NONIGNORABLE SAMPLING AND NONRESPONSE—AN EMPIRICAL LIKELIHOOD APPROACH
【字体:
大
中
小
】
时间:2025年10月24日
来源:Journal of Survey Statistics and Methodology 1.6
编辑推荐:
本文针对调查数据中普遍存在的非随机抽样和不可忽略无应答问题,提出了一种结合经验似然与参数响应概率模型的新方法。研究通过整合响应单元模型与响应概率模型,有效提取缺失数据模型并进行填补,解决了传统方法因忽略抽样设计与无应答机制导致的估计偏差问题。仿真与实证应用验证了该方法在参数估计与数据填补方面的优越性能,为复杂调查数据的建模分析提供了稳健高效的解决方案。
在现代社会,调查数据已成为政策制定、市场分析和科学研究的重要基础。然而,这些数据往往面临两大挑战:一是抽样设计可能是“信息性的”(informative sampling),即样本的入选概率与研究者关心的结果变量相关,即使考虑了模型中的协变量;二是调查中普遍存在的无应答现象,特别是当应答概率与结果变量相关时,即“非随机缺失”(NMAR, Not Missing at Random)。忽略这两个问题,直接使用观测到的样本数据进行推断,可能会导致严重的估计偏差,扭曲真实的结论。例如,在高收入家庭调查中,收入水平高的家庭可能更倾向于拒绝回答收入问题,如果忽略这种有选择性的无应答,对总体平均收入的估计就会产生偏差。因此,如何在这种复杂的“双重挑战”(信息性抽样和NMAR无应答)下进行准确的统计推断,是调查统计学领域一个长期且棘手的难题。
为了回答这个挑战,发表在《Journal of Survey Statistics and Methodology》上的这项研究,由Danny Pfeffermann教授领衔的团队开发了一种名为“响应者经验似然”(REL, Respondents Empirical Likelihood)的新方法。该方法巧妙地将非参数的经验似然(EL, Empirical Likelihood)与参数化的响应概率模型结合起来,无需对总体模型做出严格的参数假设,同时又能有效利用已知的总体辅助信息(如某些变量的总体均值)来提高估计精度。研究人员通过理论推导、大量的模拟实验以及一个真实的以色列家庭支出调查数据应用,系统地验证了REL方法的有效性。
为开展研究,作者主要运用了几个关键技术方法:首先是经验似然(EL)框架,用于非参数地估计总体分布;其次是参数化响应概率建模,假设响应概率服从Logistic模型,其协变量包含结果变量Y,以处理NMAR非随机缺失;第三是校准约束(Calibration Constraints)技术,通过引入已知的总体辅助信息(如校准变量的总体均值)来增强估计的效率和稳健性;第四是核平滑(Kernel Smoothing)技术,用于非参数地估计给定协变量和结果变量下的样本入选概率期望 Es(wi| yi, xi);此外,研究还结合了Chang和Kott (2008)的方法 以及Sverchkov (2008)的方法 来估计响应模型参数,并采用了参数自助法(Parametric Bootstrap) 进行方差估计。研究所用的实证数据来自以色列中央统计局2019年家庭支出调查(HES),样本量为12,136个家庭,其中7,827户为响应者。
研究首先从理论上定义了在信息性抽样和NMAR无应答下,样本分布 fs(yi| xi) 和响应者分布 fR(yi| xi) 与目标总体分布 fu(yi| xi) 之间的差异。公式推导表明,若忽略抽样设计和响应机制,直接基于响应者数据进行的推断将是有偏的。这为后续提出新方法奠定了理论基础。
REL方法是本研究的核心创新点。它假设有限总体值来自一个多项分布,其概率向量为 p。响应者数据的分布则被建模为另一个多项分布,其概率 p(r)与总体概率 p、样本入选概率 τi和响应概率 ρi相关联。响应概率 ρi被参数化为一个包含结果变量 y 的Logistic函数。通过引理1,文章证明了这种参数化形式可以任意近似任何连续的响应概率函数,增强了模型的灵活性。REL的估计通过引入校准约束(如已知的总体均值)和样本量约束来实现,形成了一个带约束的最大化问题,可以通过拉格朗日乘数法求解。
在获得响应者经验似然的估计后,研究展示了如何进一步估计参数化的总体模型(如逻辑回归模型)的参数。通过构建基于估计的总体概率 p 的估计方程,可以得到总体模型参数的一致估计。对于方差估计,研究采用了参数自助法(Parametric Bootstrap),通过从拟合的响应者分布中重复抽样来评估估计量的变异性。
一个重要的贡献在于,研究驳斥了“响应模型无法检验”的常见误解。由于REL方法最终拟合的是响应者数据模型,因此可以使用经典的拟合优度检验。文章详细介绍了如何应用Hosmer-Lemeshow(HL)检验(针对二元结果变量)以及Kolmogorov-Smirnov (KS)、Cramér-von Mises (CM) 和 Anderson-Darling (AD) 检验(针对连续结果变量)来检验假设的响应者模型。模拟研究验证了HL检验统计量在原假设下近似服从卡方分布。
研究还提出了在两种场景下对非响应者数据进行填补的方法: Scenario 1是协变量和结果变量均未知;Scenario 2是协变量已知,仅结果变量未知。通过推导非响应者给定数据的条件分布,可以利用估计出的模型参数进行随机填补,从而使填补后的完整样本数据分布更接近真实情况。模拟结果表明该填补方法效果良好。
广泛的模拟研究证实了REL方法在估计响应模型参数和总体模型参数方面的优良性能,其估计量近乎无偏,而忽略抽样或无应答机制的传统方法则表现出显著偏差。同时,模拟也强调了选择合适的、与模型变量高度相关的校准变量对于估计精度至关重要。最后,文章将REL方法应用于以色列家庭支出调查数据,以估计家庭总收入均值为例。结果显示,考虑NMAR无应答的REL估计值(19,886以色列新谢克尔)与以色列中央统计局采用另一种方法(Sverchkov, 2008)得到的估计值(19,542)非常接近,且都显著低于忽略无应答的加权估计值(21,480),凸显了校正非随机无应答的重要性。模型拟合优度检验(KS, CM, AD)的p值均较高,支持了所用模型的合理性。
综上所述,这项研究成功地开发并验证了一种处理复杂调查数据中信息性抽样和NMAR无应答的综合框架。REL方法的主要优势在于其相对稳健性(无需对总体分布强加参数假设)和灵活性(能自然融入辅助信息)。它不仅提供了参数估计和方差估计的实用方法,还提出了模型检验和数据填补的策略。尽管在理论渐近性质和小样本下bootstrap检验的应用等方面仍有进一步探索的空间,但本研究为调查统计学家提供了一个强大且实用的工具,有望在社会科学、经济学和公共卫生等广泛领域的调查数据分析中发挥重要作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号