
-
生物通官微
陪你抓住生命科技
跳动的脉搏
深度学习驱动的多基因评分优化:非线性效应与连锁不平衡的博弈
【字体: 大 中 小 】 时间:2025年06月03日 来源:Nature Communications 14.7
编辑推荐:
这篇研究通过模拟和英国生物银行(UK Biobank)28种真实性状数据,系统评估了神经网络(NN)在提升多基因评分(PGS)预测性能中的潜力。研究发现,尽管存在微弱的非线性效应(如基因-基因/环境交互作用G×G/G×E),但NN模型因连锁不平衡(LD)导致的联合标记效应(joint tagging effects)而表现受限,最终线性回归模型在遗传和遗传+环境输入场景中均优于NN。研究提出SNP剂量加权策略以区分真实非线性效应与LD干扰,为PGS的临床应用提供了重要方法论参考。
深度学习在多基因评分中的应用表现
概述
多基因评分(PGS)作为量化个体疾病或性状遗传倾向的工具,正逐步融入基因组医疗体系。神经网络(NN)因其捕捉非线性相互作用的特性,被认为有望提升PGS性能。本研究通过模拟数据和英国生物银行(UK Biobank)28种真实性状分析,揭示了NN模型在PGS优化中的实际效果与局限性。
研究背景
全基因组关联研究(GWAS)的进展推动了PGS在精准医学中的应用,但现有模型多忽略高阶非线性效应(如G×G/G×E)。尽管NN在序列建模等领域表现卓越,但其在PGS中的优势尚存争议。研究团队提出关键问题:NN能否有效捕捉真实非线性效应?抑或其性能提升仅源于连锁不平衡(LD)导致的统计假象?
方法论创新
研究设计包含三大核心策略:
模拟实验结果
在纯加性性状中,非线性NN意外优于线性模型(r2提升3.7%),表明NN可能通过LD间接捕捉加性效应。而在纯上位性场景中,非线性NN优势显著(r2提升10.9%)。SNP剂量加权策略有效抑制了93%的LD干扰,但距离过滤法因过度校正导致性能下降。值得注意的是,即使在上位性主导的性状中,非线性NN仅比线性模型提升9.5%,提示真实非线性贡献有限。
真实数据分析
对28种UKB性状的分析显示:
讨论与展望
研究揭示了NN在PGS中的双重挑战:
技术细节补充
这项研究为理解复杂性状遗传架构提供了实证框架,同时为临床PGS开发提供了实用方法论指导。
生物通微信公众号
知名企业招聘