基于排序统计学的多基因风险指数效应可重复性预测模型构建与验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月08日 来源：Russian Journal of Genetics 0.5

编辑推荐：

　　针对GWAS/EWAS研究中效应可重复性预测难题，A. V. Rubanovich团队提出两种基于排序统计学的方法：通过推导R02零假设解析公式（与样本量n、指标总数m和top指标数k相关），建立1.3倍阈值判据（R2>1.3R02时测试集可保留50%效应）；同时开发rmax>1.25rmax(0)的极值相关判据，为PRS/PGS构建提供量化标准。

在基因组医学蓬勃发展的今天，全基因组关联研究（GWAS）和表观基因组关联研究（EWAS）正面临一个尴尬的"数据海啸"困境：研究者们能轻松获得数百万个单核苷酸多态性（SNP）或甲基化位点数据，但样本量往往仅有数百例。这种m?n（变量数远大于样本量）的格局，使得传统统计方法频频陷入"Freedman悖论"的泥潭——即使所有预测因子都是中性（与表型无关），通过筛选top预测因子构建的多重回归模型仍会呈现惊人的"虚假显著性"。这个问题在构建多基因风险指数（PRS/PGS）时尤为突出，大量临床研究报道PRS的预测效能AUC值长期徘徊在0.6左右，其根本原因在于训练集与测试集间的效应可重复性难以保障。

俄罗斯科学院瓦维洛夫普通遗传学研究所的A. V. Rubanovich团队在《Russian Journal of Genetics》发表的研究，犹如为这个困局投下一束曙光。研究人员创造性地将排序统计学理论引入效应可重复性预测领域，发展出两套简洁而强大的判据体系。

研究采用理论推导与计算机模拟相结合的方法：首先基于Cohen效应量f²可加性原理，建立独立预测因子情境下的R²解析表达式；继而通过排序统计学中的选择微分（selection differential）理论，推导出零假设下top中性预测因子的平均相关系数r₀；最终利用千人基因组计划等公开数据构建模拟队列（n=100-2000，m=1000-10⁶），验证预测模型的稳健性。

1. 中性top预测因子的虚高效应

研究发现当m=10⁶时，即使n=600的样本中top中性预测因子也能达到"基因组显著性"阈值（p<5×10^-8），但其在测试集的效应可重复性不足7%。通过推导获得关键公式：

0²) on the number of studied (m) and the number of selected top predictors (k) for different sample sizes (n).'>

2. 决定系数的零假设阈值

建立的解析公式R₀²=kln(2m²/πk²)/[n+(k-1)ln(2m²/πk²)]显示：当m=10⁵、k=50、n=1000时，R₀²≈0.3，这意味着观察到的R²需超过0.4（1.3倍阈值）才能保证测试集保留50%效应。

3. 极值相关系数判据

max⁽⁰⁾/r_max.'>

研究表明当最大观测相关系数r_max超过中性期望值r_max⁽⁰⁾=√(1/n ln(2m²/π))的1.25倍时，可确保效应可重复性>50%。

这项研究为GWAS/EWAS领域提供了革命性的方法论工具：其一，用R₀²判据替代传统p值，避免陷入"5×10^-8显著性陷阱"；其二，提出的1.3倍阈值和1.25倍极值比，为PRS构建提供了明确的量化标准。这些发现不仅解释了当前PRS预测效能低下的根本原因，更为未来精准医学研究树立了效应可重复性的新标杆。正如作者强调的："在m>10⁶的研究中，仅达到Bonferroni校正阈值远不能保证效应可重复性，必须同时满足R²>1.3R₀²这一更严格标准。"这一认识将深刻改变复杂疾病遗传架构研究的范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号