分位数回归方法在离散结果数据上的应用表现:一项基于环境流行病学的模拟研究

《Environmental Epidemiology》:Performance of quantile regression methods with discrete outcomes: A simulation study with applications to environmental epidemiology

【字体: 时间:2025年10月31日 来源:Environmental Epidemiology 3.8

编辑推荐:

  分位数回归在离散结果变量中的应用研究通过模拟和MIREC数据,比较了未抖动、抖动频繁主义和贝叶斯分位数回归方法。结果显示,抖动频繁主义QR结合xy- bootstrapped置信区间在稳定性、覆盖概率和区间宽度变异方面表现最佳,而未抖动QR易产生整数或分数点估计导致不合理的推断。贝叶斯方法在样本量小时存在偏差,但区间宽度更稳定。建议优先采用抖动频繁主义QR处理离散数据。

  在许多健康研究领域,尤其是环境流行病学中,研究者常常面临如何分析具有离散分布的结局变量的问题。通常,这些研究使用普通的最小二乘法(OLS)来估计风险因素对结局变量的平均效应,但这种方法假设结局变量的分布整体均匀地随风险因素变化。然而,当结局变量不是连续的离散变量时,这种假设可能不成立,导致模型对效应的估计出现偏差。为了解决这个问题,研究者可以使用分位数回归(QR)方法,这种方法可以更全面地分析风险因素在结局分布的不同分位数上的效应。然而,当处理离散变量时,QR方法可能会产生不合理的点估计,比如整数或分数,这与实际的参数值不符。因此,需要探索更合适的处理方法,如“抖动”(dithering)或贝叶斯QR,以避免这些问题。

本研究通过模拟和真实数据(来自Maternal-Infant Research on Environmental Chemicals,MIREC研究)评估了三种QR方法在处理离散结局变量时的表现:未抖动的频率学QR、抖动的频率学QR以及未抖动的贝叶斯QR。结果显示,抖动的频率学QR在处理离散变量时表现最佳,特别是在使用xy-bootstrapped置信区间的情况下,其点估计的变异性较小,且置信区间的覆盖概率接近预期的名义水平。此外,抖动的频率学QR生成的置信区间宽度相对一致,而贝叶斯QR虽然在低样本量下点估计的变异性最小,但在某些情况下存在偏差,并且生成的置信区间宽度变化较大。未抖动的频率学QR在处理离散变量时不仅会产生不合理的点估计,其置信区间也可能无法达到预期的覆盖水平,特别是在处理二元或离散协变量时。

研究还指出,未抖动的频率学QR在处理离散变量时,点估计常常是整数或分数,这在实际应用中是不合理的。例如,在MIREC研究中,当使用二元变量(如金属浓度高于或低于中位数)进行模型拟合时,所有点估计都是整数;当使用连续变量(如log2变换的金属浓度)时,某些点估计恰好为零。这种现象表明,未抖动的频率学QR可能无法准确反映真实参数值,特别是在样本量较小的情况下。相比之下,抖动的频率学QR和贝叶斯QR可以避免这种问题,生成更合理的点估计和置信区间。然而,贝叶斯QR在某些情况下仍存在偏差,这可能与软件默认的后验分布假设有关,尤其是在样本量较小的情况下。

研究进一步探讨了不同方法在处理离散变量时的置信区间性能。结果显示,抖动的频率学QR在处理离散变量时,无论使用哪种置信区间方法(包括rank-based和xy-bootstrapped),都能生成具有合理覆盖概率的置信区间。而贝叶斯QR的调整后置信区间虽然覆盖概率接近名义水平,但其宽度变化较大,这可能影响结果的稳定性。未调整的贝叶斯QR则在某些情况下表现不佳,其置信区间覆盖概率较低。此外,研究还发现,抖动的频率学QR在处理离散变量时的置信区间宽度更加一致,这表明其在处理这类数据时更具优势。

为了进一步验证这些发现,研究团队在模拟数据中评估了不同样本量(n=100, 250, 500, 750)和不同分位数(τ=0.1, 0.5, 0.9)下的方法性能。结果显示,抖动的频率学QR在所有样本量和分位数组合中都表现稳定,而贝叶斯QR在低样本量时虽然点估计的变异性较小,但存在偏差。这些发现表明,抖动的频率学QR在处理离散结局变量时是一个更可靠的方法,尤其是在样本量较大或协变量为二元/离散的情况下。

在实际应用中,处理离散结局变量时的QR方法选择对研究结果的准确性至关重要。抖动的频率学QR通过在结局变量上添加均匀分布的随机噪声,使其具有连续的分布,从而避免了点估计为整数或分数的问题。这种方法在实际数据(如MIREC研究)和模拟数据中均表现良好,生成了更合理的点估计和置信区间。贝叶斯QR则通过Metropolis-Hastings算法生成后验分布,从而避免了频率学QR中因分位数选择而导致的不连续性问题,但其在处理二元协变量时仍存在一定的偏差,这可能需要进一步的调整。

此外,研究还指出,处理离散结局变量时,置信区间的计算方法对结果的影响较大。rank-based置信区间在处理离散变量时可能产生不对称的区间,并且在某些情况下无法达到预期的覆盖概率。相比之下,xy-bootstrapped置信区间在处理离散变量时表现更好,尤其是在样本量较大时。贝叶斯QR的调整后置信区间虽然覆盖概率接近名义水平,但其宽度的变异性较大,这可能影响结果的解释。因此,研究建议在处理离散结局变量时,优先考虑抖动的频率学QR或贝叶斯QR,并选择适当的置信区间计算方法以提高结果的可靠性。

总的来说,QR方法在分析离散结局变量时具有重要的应用价值,能够揭示风险因素在结局分布不同分位数上的效应。然而,未抖动的频率学QR在处理这类数据时存在局限,可能导致不合理的点估计和置信区间。抖动的频率学QR和贝叶斯QR则能有效解决这些问题,但各有其优缺点。抖动的频率学QR在大多数情况下表现最佳,尤其是在样本量较大或协变量为二元/离散的情况下。贝叶斯QR虽然在处理连续协变量时表现良好,但在处理二元协变量时仍需谨慎。因此,研究者在选择QR方法时,应根据具体的研究设计和数据特征,权衡不同方法的优缺点,以确保分析结果的准确性和可靠性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号