基于偏和统计与样本分割策略的高维因果中介分析在影像遗传学中的应用

【字体: 时间:2025年09月11日 来源:Bioinformatics 5.4

编辑推荐:

  为解决高维中介分析中存在的多重共线性、可解释性差及中介变量优先级排序困难等问题,研究人员开发了基于偏和统计与样本分割策略(PS5)的新框架。研究通过模拟实验验证了PS5在I类错误控制、统计效能、估计偏差及变量选择方面的优越性,并应用于COPDGene队列的影像遗传学数据分析,成功识别出肺下叶区域在遗传和环境暴露中的显著中介作用,为COPD的机制研究和靶向治疗提供了新视角。

  

随着高通量技术的发展,生物医学研究进入了多组学时代,海量的基因组、影像组数据为揭示疾病机制提供了前所未有的机遇。然而,如何从这些高维数据中挖掘出可靠的因果路径,成为当前研究的难点。特别是在中介分析(Mediation Analysis)中,暴露变量(如基因、环境因素)通过中介变量(如影像特征、分子标记)影响结局(如疾病表型)的路径推断,面临着高维性、多重共线性、统计效能不足等多重挑战。现有方法如惩罚回归(Penalized Regression)和正交变换(Orthogonal Transformation)虽各具优势,但往往在可解释性、变量选择稳定性或因果假设保障方面存在局限。

为了突破这些瓶颈,来自匹兹堡大学和波士顿大学的研究团队在《Bioinformatics》上发表了一项研究,提出了一种名为PS5(Partial Sum Statistic and Sample Splitting Strategy)的新框架,专门用于高维因果中介分析。该研究通过模拟实验和真实数据应用,系统验证了PS5在类型I错误控制、统计效能、估计偏差及变量优先级排序方面的优越性,并成功应用于慢性阻塞性肺疾病(COPD)的影像遗传学数据,揭示了肺下叶区域在遗传和环境暴露中的关键中介作用。

研究主要采用了以下关键技术方法:基于样本分割(Sample Splitting)的变量选择策略,将数据分为训练集和测试集,以克服过拟合问题;偏和统计量(Partial Sum Statistic),通过Lγ范数聚合中介效应,提升对稀疏信号的检测能力;多重样本分割(Multiple Sample Splitting)与p值聚合(p-value Aggregation),增强变量选择的鲁棒性;以及针对高维中介变量的蒙特卡洛模拟(Monte Carlo Simulation)和误差控制方法(如Benjamini-Yekutieli校正)。数据来源于COPDGene研究队列(N=8,897),包括遗传风险评分(PRS)、吸烟包年(PY)暴露、肺部CT影像特征(经自监督表示学习和PCA降维处理)及肺功能指标(FEV1)。

样本分割与变量选择

PS5首先将样本随机分为两部分,一部分用于变量选择,另一部分用于估计和检验。通过最小化凸惩罚(MCP)方法筛选出与结局相关的中介变量,同时去除暴露的边际效应以减少共线性干扰。理论证明(Proposition 1)表明,该步骤不会破坏因果假设(I–IV)的成立。

偏和统计量检验全局间接效应

针对高维中介变量的稀疏性和效应方向不一致问题,PS5设计了偏和统计量(PSk),按中介贡献的绝对值大小排序并逐步累加,再通过Cauchy组合检验计算全局p值。模拟显示,该方法在多种信号结构(稀疏、密集、相关)下均保持较高效能,尤其在高度相关(ρ=0.9)时表现优异。

多重样本分割与变量优先级排序

为克服单次分割的随机性,PS5采用多重样本分割(R=50)策略,并通过δ分位数法聚合p值,控制错误发现率(FDR)和家族错误率(FWER)。结果表明,PS5在变量选择灵敏度(Sensitivity)和假阳性率(FPR)方面均优于传统方法(如HIMA),且能有效捕捉高度相关的中介变量。

COPDGene应用分析

在COPDGene数据的应用中,PS5检测到CT影像在PRS和PY对FEV1的影响中均存在显著中介作用(p<10?16),中介比例(GM%)分别为49%和76%。通过错误发现控制(q<0.01),分别筛选出13个(PRS模型)和20个(PY模型)显著影像区域,其中9个区域重叠,且富集分析显示显著 enrichment(p=5.7×10?12,OR=108.26)。空间分布分析表明,这些区域主要集中于肺下叶(Z=56–160),如M90、M148、M133等 patch,提示该区域在COPD进展中的关键作用。对比其他方法(如HIMA),PS5不仅能检测全局效应,还能识别出空间聚集的生物标志物区域。

研究结论部分强调,PS5框架成功解决了高维中介分析中的四大挑战(C1–C4),实现了三大目标(A1–A3):即检测全局间接效应、估计中介比例、优先排序关键变量。其在COPD中的应用不仅验证了方法的有效性,还揭示了肺下叶影像特征在遗传和环境致病通路中的共同中介角色,为COPD的机制研究和靶向干预提供了新方向。未来工作可进一步拓展至空间结构整合和其他组学数据应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号