深度学习驱动的多基因评分优化:非线性效应与连锁不平衡的博弈

【字体: 时间:2025年06月03日 来源:Nature Communications 14.7

编辑推荐:

  这篇研究通过模拟和英国生物银行(UK Biobank)28种真实性状数据,系统评估了神经网络(NN)在提升多基因评分(PGS)预测性能中的潜力。研究发现,尽管存在微弱的非线性效应(如基因-基因/环境交互作用G×G/G×E),但NN模型因连锁不平衡(LD)导致的联合标记效应(joint tagging effects)而表现受限,最终线性回归模型在遗传和遗传+环境输入场景中均优于NN。研究提出SNP剂量加权策略以区分真实非线性效应与LD干扰,为PGS的临床应用提供了重要方法论参考。

  

深度学习在多基因评分中的应用表现

概述
多基因评分(PGS)作为量化个体疾病或性状遗传倾向的工具,正逐步融入基因组医疗体系。神经网络(NN)因其捕捉非线性相互作用的特性,被认为有望提升PGS性能。本研究通过模拟数据和英国生物银行(UK Biobank)28种真实性状分析,揭示了NN模型在PGS优化中的实际效果与局限性。

研究背景
全基因组关联研究(GWAS)的进展推动了PGS在精准医学中的应用,但现有模型多忽略高阶非线性效应(如G×G/G×E)。尽管NN在序列建模等领域表现卓越,但其在PGS中的优势尚存争议。研究团队提出关键问题:NN能否有效捕捉真实非线性效应?抑或其性能提升仅源于连锁不平衡(LD)导致的统计假象?

方法论创新
研究设计包含三大核心策略:

  1. SNP剂量加权:将LD调整后的PGS系数加权至NN输入,以区分真实交互作用与LD干扰。
  2. 非线性能力测试:对比启用/禁用激活函数的NN模型,量化非线性贡献。
  3. 混合架构模拟:构建纯加性、纯上位性及混合性状,覆盖不同遗传架构场景。

模拟实验结果
在纯加性性状中,非线性NN意外优于线性模型(r2提升3.7%),表明NN可能通过LD间接捕捉加性效应。而在纯上位性场景中,非线性NN优势显著(r2提升10.9%)。SNP剂量加权策略有效抑制了93%的LD干扰,但距离过滤法因过度校正导致性能下降。值得注意的是,即使在上位性主导的性状中,非线性NN仅比线性模型提升9.5%,提示真实非线性贡献有限。

真实数据分析
对28种UKB性状的分析显示:

  • 非线性NN在仅SNP输入时中位r2提升6.86%,但仅为线性回归基线的93.2%。
  • 加入环境因素后,G×E贡献更微弱(中位r2提升3.77%)。以心血管代谢性状为例,静脉血栓形成预测提升35%,但缺血性卒中反而下降14.6%,呈现显著异质性。

讨论与展望
研究揭示了NN在PGS中的双重挑战:

  1. 数据特性限制:SNP数据的低信噪比和缺乏空间结构不利于NN优势发挥。
  2. 理论约束:群体水平表型变异主要源于加性效应,上位性贡献有限(Hill et al.理论支持)。
    未来方向包括:整合多组学数据开发新型NN架构,或利用NN生成功能注释(如调控元件预测)间接优化PGS。研究强调,当前阶段NN在PGS中的应用仍需谨慎,其性能提升可能被LD效应夸大。

技术细节补充

  • 模型构建:采用三层MLP架构(100-50-25/24-12-6神经元),Softplus激活函数,批标准化和0.3丢弃率。
  • 数据预处理:HapMap3 SNPs(MAF>0.001),样本严格过滤至125,000名欧洲血统个体。
  • 环境因素:针对不同表类型定制协变量(如癌症分析排除癌症相关变量),共纳入198项协变量。

这项研究为理解复杂性状遗传架构提供了实证框架,同时为临床PGS开发提供了实用方法论指导。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号