基于融合核机器回归的贝叶斯推断:识别多通路间关联性信号的新框架 间隔符:

《Statistics in Medicine》:Flexible Bayesian Inference for Identifying Significantly Correlated Multiple Pathway Sets

【字体: 时间:2026年03月02日 来源:Statistics in Medicine 1.8

编辑推荐:

  本文提出了一种灵活的贝叶斯推断方法——广义融合核机器回归(Generalized Fused Multi-Kernel Machine Regression, GFKM),旨在解决基因组学等领域中,识别与表型(如疾病状态)显著相关的高维功能集(如基因通路)的难题。该方法通过引入组Lasso和融合Lasso先验结构,同时建模通路内基因的集体效应以及通路间的相关性依赖,克服了传统单通路分析忽略通路间相互作用导致假阳性/假阴性的局限。研究发展了基于贝叶斯因子(Bayes Factor, BF)的数据驱动多重检验校正策略(adj-BF),并通过对连续/二分类响应变量的模拟研究及II型糖尿病通路分析实例,验证了其在识别显著相关多通路组合上的优越性能,为复杂疾病的通路水平关联分析提供了强有力的统计工具。 间隔符:

  
文章内容归纳总结
引言
在基因组学、蛋白质组学等生命科学研究中,分析具有复杂相关性的高维数据是一个关键挑战。以基因通路分析为例,通路(Pathway)是功能协同的一组基因,能够调控特定的生物过程。相较于基于单个基因的分析,通路层面的分析能够考虑基因间的依赖结构,并捕捉多个受适度调控的基因联合对临床结局的潜在显著影响。然而,在实际生物学问题中,临床结局通常受多个通路集合的共同影响,且这些通路之间并非独立,而是存在复杂的依赖关系(例如共享基因或功能关联)。传统的分析方法通常采用短视策略,每次只检验单个通路与结局的关联。这种基于边际分析的单一通路检验,忽略了通路间的相互作用,可能导致结果出现假阳性或假阴性。因此,开发能够同时检验多个相关通路集合,并能准确量化其整体效应的统计方法至关重要。
问题设置与模型框架
为了克服单通路检验的局限,本文提出了广义融合多核机器回归(Generalized Fused Multi-Kernel Machine Regression, GFKM)框架,旨在识别与连续或二分类响应变量显著相关的多个高维功能集。
在模型设定中,响应变量yi可以是连续或分类变量,协变量向量为xi,而Zi,j则代表第i个样本在第j个集合(如通路)中的元素矩阵。模型的核心在于对未知的高维函数hj(Zj)进行建模。
模型通过引入双重正则化结构来刻画生物学背景:
  1. 1.
    组结构(Group Structure):反映通路内基因的集体作用。该结构施加组Lasso惩罚,将同一通路内的基因视为一个功能单元进行建模。这通过为每个通路j指定一个核矩阵Kj来实现,该矩阵能够捕捉通路内基因表达的非线性效应及复杂相互作用。
  2. 2.
    融合结构(Fused Structure):反映通路间的相关性依赖。该结构施加融合Lasso惩罚,通过收缩相邻通路(在某种排序下)的随机效应估计值,使它们在统计上更相似。这并非旨在精确还原真实的生物通路网络顺序,而是作为一种稳健且简约的依赖性先验结构,在缺乏可靠的网络先验知识时,能够稳定高维设定下的统计推断,并提高统计效率。例如,当三个通路中,通路1与通路2、3共享基因,而通路2与3不重叠时,融合结构能够平滑通路1与相邻通路(2和3)的效应差异,从而更准确地捕捉它们与响应变量的联合关联。
最终的GFKM模型形式为:
g(μi) = xTiβ + ΣJj=1hj(Zi,j)
其中,g(·)是链接函数,β是协变量回归系数,未知函数hj通过具有组融合结构的条件先验分布进行控制。模型参数通过贝叶斯抽样(结合Metropolis-Hastings和Gibbs采样)进行估计。
基于贝叶斯因子的多重假设检验
研究的主要目标是识别与响应变量显著相关的多个变量集合。统计推断基于贝叶斯因子(Bayes Factor, BF)进行。对于第j个集合,检验原假设H0j: hj=0(该集合与响应无关)与备择假设H1j: hj≠0(该集合与响应相关)。BF值越大,数据越支持备择假设。然而,标准的BF解释未考虑多重检验问题,且假设各集合函数独立。
为此,本文提出了针对多重检验的数据驱动贝叶斯因子调整方法(adjusted-BF, adj-BF)。其核心思想是:在完成多次MCMC抽样得到每个集合的多个BF估计值后,通过聚类算法(如K-means)对这些BF值进行分类。根据分类数目(K=2,3,4),动态确定用于判断集合“显著”、“强显著”或“不显著”的BF阈值范围。例如,当K=2时,BF值落入较高类别的集合被视为显著,落入较低类别的被视为不显著,阈值取两类之间的范围值。这种方法提供了一种数据驱动的、适应性的阈值标准,以控制多重检验带来的假阳性风险。该方法的流程图清晰展示了从计算多次BF、移除离群值、标准化、聚类到最终确定阈值并做出推断的完整步骤。
模拟研究
为验证所提方法的性能,研究进行了广泛的模拟分析,并将基于GFKM的贝叶斯因子检验(BF-GFKM)与两种方法比较:基于半参数加性核机器回归的频率学检验(FT-SAKM)和基于广义加性核机器模型的贝叶斯检验(BF-GAKM,可视为忽略通路间融合结构的简化版本)。
模拟设置了三种主要场景:1. 集合相关但不共享元素;2. 集合独立且不共享元素;3. 集合相关且共享元素。此外,还考虑了比AR(1)更复杂的强依赖结构,以检验模型的稳健性。响应变量包括连续和二分类情况,并设定了不同的非线性函数形式以检验模型对误设的稳健性。
评估指标包括真阳性率(TPR)、假阳性率(FPR)、准确率(Accuracy)和精确率(Precision)。模拟结果表明:
  • 在集合相关的设定下:无论是连续还是二分类响应,BF-GFKM在控制FPR方面通常优于或与BF-GAKM相当,同时保持了高TPR。特别是在集合间存在依赖时,BF-GFKM通过融合结构利用了通路间的信息,其表现优于忽略依赖性的BF-GAKM。与频率学方法FT-SAKM相比,BF-GFKM也显示出相当的竞争力。
  • 在集合独立的设定下:BF-GFKM与BF-GAKM的性能相近,表明当不存在额外依赖结构时,融合先验并未对模型造成损害,展现了其灵活性。
  • 阈值选择:使用数据驱动的adj-BF阈值与使用传统固定BF阈值(如1,3,5,10)相比,能在不同模拟场景下提供更稳定和合理的推断决策。
  • 计算复杂性:拟合GFKM模型的计算复杂度为O(n3),具体计算时间因样本量和模拟情况而异,详细信息在支持材料中提供。
实例应用:II型糖尿病基因通路分析
研究将所提出的BF-GFKM方法应用于一个真实的II型糖尿病遗传通路分析数据集,以展示其实际优势。该分析旨在识别与II型糖尿病显著相关的基因通路。
通过应用GFKM模型及adj-BF多重检验校正,研究成功识别出了一组与II型糖尿病状态显著相关的基因通路。与传统的单通路分析方法相比,BF-GFKM方法由于同时考虑了多个通路及其间的相关性,能够更全面、更稳健地揭示与复杂疾病相关的功能性基因模块。例如,它可能识别出那些单独效应微弱、但通过与其他通路相互作用而对疾病产生重要影响的通路,这些通路在传统分析中容易被遗漏。该实例证实了所提方法在真实生物医学数据中识别具有生物学意义关联信号的有效性。
结论
本研究开发了一种灵活的贝叶斯推断框架——广义融合多核机器回归(GFKM),用于识别与表型显著相关的多个高维功能集合。该框架的主要贡献在于:1) 构建了能够同时处理连续和二分类响应的多核融合回归模型;2) 引入了包含组和融合结构的先验,以分别捕捉集合内和集合间的依赖;3) 提出了一种数据驱动的贝叶斯因子调整策略(adj-BF),以解决多重假设检验问题。
模拟研究和实际数据分析均表明,该方法在存在集合间依赖时,相较于忽略相关性的方法,能更准确地识别显著相关的集合,同时有效控制假阳性率。该框架为基因组学等领域中复杂的、具有依赖结构的高维集关联分析提供了一个强大而实用的工具。未来的研究方向可包括将该框架扩展到生存分析、纵向数据或其他更复杂的反应类型,并探索更复杂的图结构先验以纳入已知的生物网络信息。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号