基于马蹄形先验族的稳健贝叶斯高维变量选择与推断方法

《Computational Statistics & Data Analysis》:Robust Bayesian high-dimensional variable selection and inference with the horseshoe family of priors

【字体: 时间:2026年02月18日 来源:Computational Statistics & Data Analysis 1.6

编辑推荐:

  稳健贝叶斯回归模型采用鞋带家族先验,结合拉普拉斯分布构建抗差似然,提出高效Gibbs抽样方案,数值实验显示在变量选择和统计推断上优于切片抽样等方法,且不强制零稀疏性时仍能获得有效可信区间,并验证了高维eQTL数据集的应用优势。

  
Kun Fan | Srijana Subedi | Vishmi Dissanayake | Cen Wu
德克萨斯大学休斯顿健康科学中心公共卫生学院生物统计学与数据科学系,休斯顿,TX,77030

摘要

在高维回归中,频率论的鲁棒变量选择已经得到了广泛研究。尽管取得了成功,但开发相应的统计推断程序仍然是一项具有挑战性的任务。最近,从贝叶斯的角度来解决这一挑战受到了很多关注。在文献中,已经证明两组尖峰-平板先验可以诱导出精确的稀疏性,并在鲁棒稀疏线性模型中产生有效的推断。然而,另一类重要的稀疏先验——马蹄形先验家族(包括马蹄形、马蹄形+和正则化马蹄形先验)在鲁棒高维回归中的研究还远远不够。它们在变量选择,特别是在存在重尾模型误差时的统计推断方面的表现尚未得到充分理解。为了填补这一空白,我们开发了结合马蹄形先验家族的鲁棒贝叶斯层次模型,并提出了一种高效的Gibbs采样方案用于后验计算。数值研究表明,与使用其他采样策略(如切片采样)的竞争方法相比,所提出的方法在变量选择、贝叶斯估计和统计推断方面表现更优。特别是,即使不强制要求精确的稀疏性,单组马蹄形先验也能在鲁棒高维线性回归模型中产生有效的贝叶斯可信区间。对真实数据的应用进一步证明了所提出方法的优势。

引言

在生物信息学研究中,鲁棒变量选择已经被广泛开发并应用于识别与复杂疾病特征(如癌症结果)相关的重要基因组特征(Wu和Ma,2015年)。变量选择程序的鲁棒性在于使用了鲁棒损失函数,例如Huber损失、分位数检验损失和基于排序的损失函数等,这些函数可以减轻异常值对收缩估计器的影响,相比之下,非鲁棒的惩罚最小二乘损失则不然(Dezeure等人,2015年)。然而,具有有效有限样本推断的频率论鲁棒变量选择方法仍然难以建立,并且其发展程度远低于非鲁棒方法(Fan等人,2024年)。
频率论鲁棒变量选择方法在统计推断方面的局限性促使我们从贝叶斯的角度来解决这个问题。完全贝叶斯分析被认为能够提供不确定性量化度量,从而实现精确的统计推断。即使在有限样本上,只要可以通过MCMC获得完整的后验分布,就可以方便地计算边际可信区间。稀疏鲁棒贝叶斯层次模型基于两个组成部分:(1)鲁棒似然函数和(2)收缩先验。尽管文献中提出了大量的收缩先验(O’hara和Sillanp??,2009年;Bai等人,2021年;George和McCulloch,1993年;Mitchell和Beauchamp,1988年;Bhadra等人,2019年;Carvalho等人,2010年;Polson和Scott,2010年),但尖峰-平板先验是研究最广泛的先验之一。尖峰-平板先验是一个两组模型,它事先对零和非零回归系数进行不同的处理,通常在零点处有一个点质量,在零点之外有一个连续密度。相比之下,马蹄形先验形成一个一组模型,它将所有回归系数全局向零收缩,同时允许一些系数通过“全局收缩,局部作用”的机制逃脱零点(Polson和Scott,2010年)。
最近的研究表明,带有尖峰-平板先验的鲁棒贝叶斯LASSO(RBLSS)即使在存在重尾模型误差的情况下也能产生具有名义覆盖概率的边际贝叶斯可信区间(Fan等人,2024年;Ren等人,2023年)。因此,一个自然的问题是,单组马蹄形先验是否能在鲁棒层次模型中产生更好的收缩估计、变量选择,特别是有效的统计推断。Fan等人(2024年)支持RBLSS有效推断程序的主要实证论点是,尖峰-平板先验诱导了精确的稀疏性,这与高维回归中的稀疏性假设是一致的。尽管单组马蹄形先验不会直接产生精确的零后验估计,但已发表的文献表明,它们在稀疏正态均值模型下仍然可以提供有效的推断(van der Pas等人,2017年)。这表明它们的有利推断属性也可能扩展到鲁棒环境中。
在本文中,我们通过开发利用马蹄形先验家族(包括马蹄形、马蹄形+和正则化马蹄形先验)的鲁棒层次模型来解决上述问题,用于贝叶斯收缩估计和推断。鲁棒似然函数是制定鲁棒稀疏贝叶斯层次模型的另一个关键组成部分(除了收缩先验之外),通常基于(1)重尾分布,(2)贝叶斯非参数方法(如Dirichlet过程混合模型Kottas和Krnjaji?,2009年),以及(3)鲁棒广义框架Bissiri等人,2016年)。在我们的研究中,我们采用拉普拉斯似然函数来确保鲁棒性,这是出于重要的计算考虑。由于拉普拉斯分布可以表示为条件缩放的正态分布(Kozumi和Kobayashi,2011年),因此可以使用马蹄形先验进行快速的Gibbs采样,从而轻松扩展到鲁棒层次模型(Makalic和Schmidt,2015年;Wand等人,2011年)。
事实上,正态似然与(非对称)拉普拉斯似然在鲁棒分析中的联系所带来的好处在已发表的文献中很少被承认,或者至少没有明确讨论。我们在这里提供了两个证据。首先,在估计方面,Liu等人(2024年)表明,在使用拉普拉斯工作似然的鲁棒尖峰-平板分位数LASSO下,稀疏回归系数的更新遵循软阈值规则。这种现象在频率论鲁棒惩罚中很少观察到,因为非可微的L1损失与平滑的最小二乘损失之间存在显著对比(Ro?ková和George,2018年)。其次,在推断方面,带有尖峰-平板先验的贝叶斯LASSO(BLSS)在正态模型误差下产生有效可信区间(Fan等人,2024年)。鉴于其非鲁棒对应方法BLSS已经在推断方面表现出色,RBLSS的表现同样出色也就不足为奇了。因此,我们采用拉普拉斯工作似然来利用在稀疏正态均值模型下开发的马蹄形先验的优势,以适应更鲁棒的环境。
我们回顾了相关的已发表文献(如表1所示),以进一步展示我们的研究与现有工作的不同之处。表1与Bhadra等人(2019年)的调查一致,即马蹄形先验稀疏回归主要集中在非鲁棒的、正态环境中,并忽略了重尾模型误差。尽管van der Pas等人(2017年)已经建立了马蹄形先验在稀疏正态均值模型下的不确定性量化属性,但这些结果仅限于高斯误差的低维环境。此外,Kohns和Szendrei(2024年)似乎是唯一一篇关于鲁棒马蹄形回归的已发表研究,它主要关注预测,没有涉及高维变量选择和推断问题。此外,我们的数值研究表明,Kohns和Szendrei(2024年)提出的切片采样在计算速度和变量选择、收缩估计以及特别是统计推断方面的性能远低于我们的方法。
总结来说,我们研究的主要贡献如下:
• 首先,与Kohns和Szendrei(2024年)采用的用于马蹄形先验分位数回归的切片采样不同,我们利用Makalic和Schmidt(2015年);Wand等人(2011年)提出的辅助混合采样策略,为包括马蹄形、马蹄形+和正则化马蹄形先验在内的鲁棒回归开发了Gibbs采样器。我们提出了之前任何现有工作中都未发布的详细Gibbs采样器。
• 第二,我们首次展示了具有代表性马蹄形先验的鲁棒贝叶斯回归的变量选择性能。与Kohns和Szendrei(2024年)面向预测的马蹄形先验分位数回归不同,后者没有研究变量选择,我们进行了全面的模拟来评估所提出方法的性能,结果表明,尽管马蹄形先验家族不诱导精确的稀疏性,但在强烈的收缩下仍能产生独特的变量选择模式。
• 第三,我们首次报告了鲁棒马蹄形回归的高维推断结果,以解决当“精确稀疏性”不成立时,单组鲁棒马蹄形模型是否可以产生有效推断结果的问题。我们的数值分析表明,马蹄形类型的先验,特别是马蹄形和马蹄形+先验,在鲁棒稀疏模型下可以产生有希望的推断结果,便于与现有的高维推断结果进行比较(Dezeure等人,2015年;Fan等人,2024年)。
• 第四,我们研究了后验采样方案与鲁棒高维推断之间的联系,这在已发表的研究中很大程度上被忽视了。我们展示了与使用其他采样方案的鲁棒马蹄形模型(Kohns和Szendrei,2024年;Makalic和Schmidt,2016年)相比,所提出的Gibbs采样在稀疏鲁棒模型中的统计推断方面表现更优。
为了确保快速计算和可重复的研究,我们通过< />包(版本1.2.0)在C++中实现了所有提出的和非鲁棒替代方法,该包可在CRAN上获取:https://cran.r-project.org/package=pqrBayes。我们以一个关于高维eQTL数据的案例研究作为本文的结尾。

章节片段

鲁棒贝叶斯回归

考虑以下形式的线性模型:
yi=β0+xi?β+?i< />对于i=1?n 其中{yi}i=1n表示一个标量响应变量,{xi}i=1n表示一个已知的

×1协变量向量,随机误差?i被假设为< />。截距表示为β0。估计的回归系数β^可以通过最小化以下鲁棒最小绝对偏差(LAD)损失来获得:

β^=argminβi=1|yi?β0?xiβ| 由于LAD损失的L1形式,这种损失对异常值具有抵抗力。更广泛地说,LAD损失是一种

模拟

我们对带有马蹄形、马蹄形+和正则化马蹄形先验的鲁棒贝叶斯回归进行了彻底评估,分别称为RBHS、RBHS+和RBRHS。它们的非鲁棒对应方法是BHS、BHS+和BRHS。详细总结请参见第2.3节。数据集是基于模型(1)在两种配置下模拟的:一种样本量为n=200,维度为p=600;另一种规模更大,分别为n=400p=600。预测变量是从

真实数据分析

我们应用所有比较方法来分析一个表达量性状位点(eQTL)数据集,该数据集使用了120只12周大的雄性实验室大鼠的样本,基于包含超过31,042个探针集的微阵列来分析这些动物的眼睛RNA(Scheetz等人,2006年)。遵循Huang等人(2008年)和Wang等人(2012年a)的方法,我们进行了两个预处理步骤,以过滤掉不表达或缺失的基因

讨论

在这项研究中,我们通过使用基于拉普拉斯分布的鲁棒似然函数,增强了现有的(马蹄形、马蹄形+和正则化马蹄形)先验家族。因为拉普拉斯分布对应于第50分位数的非对称拉普拉斯分布,所提出的方法自然适用于向贝叶斯分位数马蹄形回归的潜在扩展,并进一步与马蹄形先验分位数回归进行比较(Kohns等人)

利益冲突声明

作者声明没有利益冲突。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号