基于Transformer的深度学习模型InsightGWAS增强偏头痛全基因组关联研究的遗传发现

《Nature Communications》:Transformer-based deep learning enhances discovery in migraine GWAS

【字体: 时间:2025年12月11日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对传统全基因组关联研究(GWAS)在解析偏头痛遗传架构时存在统计效力不足、遗传度缺失的问题,开发了基于Transformer架构的深度学习模型InsightGWAS。通过整合多组学功能注释并采用从重度抑郁症(MDD)GWAS数据迁移学习的新策略,在53,109例偏头痛病例和230,876例对照的队列中成功发现293个新风险位点,其中SCN11A和HORMAD2等位点已在独立测序研究中验证。该研究揭示了氮化合物代谢和阳离子结合等新通路,为偏头痛的代谢和离子机制研究提供了新方向。

  
偏头痛作为一种复杂的神经系统疾病,具有30%-50%的遗传度,然而传统的全基因组关联研究(GWAS)仅能解释其部分遗传成分。随着样本量的扩大,新位点的发现呈现边际效益递减趋势,而大规模队列构建又面临成本和技术挑战。与此同时,流行病学研究显示偏头痛与重度抑郁症(MDD)等精神疾病存在显著共病现象,遗传相关性分析进一步证实了它们之间存在共享的遗传架构——这为利用跨性状分析策略突破偏头痛遗传研究瓶颈提供了新的思路。
在此背景下,孟祥、宋英超等研究人员在《Nature Communications》上发表了题为"Transformer-based deep learning enhances discovery in migraine GWAS"的研究论文。该研究开发了名为InsightGWAS的Transformer深度学习模型,通过整合多组学功能注释和从MDD大规模GWAS数据中迁移学习,显著提升了偏头痛遗传发现的效能。
关键技术方法
研究团队首先利用连锁不平衡评分回归(LDSC)分析了偏头痛与6种精神疾病的遗传相关性,确定MDD为最佳迁移学习源表型。InsightGWAS模型采用Transformer编码器架构,整合了GWAS汇总统计量、群体遗传学指标和功能注释等特征。模型先在170,756例MDD病例和329,443例对照的数据集上预训练,然后通过迁移学习在53,109例偏头痛病例和230,876例对照的队列上进行微调。采用PLINK聚类分析识别独立信号,通过MAGMA进行基因集富集分析,并在百万退伍军人计划(MVP)队列中进行独立验证。
遗传相关性分析
LDSC分析显示偏头痛与MDD存在最显著的遗传相关性(rg=0.29, P=1.78×10-33),与注意缺陷多动障碍(ADHD)和自闭症谱系障碍(ASD)也存在显著相关性。这一发现为后续选择MDD作为迁移学习的源表型提供了理论依据。
模型开发与比较
与传统DeepGWAS相比,InsightGWAS引入的多头自注意力机制能够捕捉特征间的非线性相互作用。置换交互作用测试表明,GWAS统计特征间存在最强的交互效应。与逻辑回归、XGBoost等传统模型相比,Transformer模型在ROC和DET曲线分析中均表现出更优的性能,特别是在低假阳性率区域具有更好的鲁棒性。
迁移学习增强偏头痛GWAS
迁移学习模型在偏头痛数据集上达到了99.37%的验证准确率,显著优于从零开始训练的基线模型。在750万个变异中,模型以99%的概率阈值预测了682个真阳性和仅30个假阳性,假阳性率低至0.0004%。与不含23andMe数据的Hautakangas偏头痛GWAS相比,InsightGWAS成功识别了其中1820个显著SNP,仅遗漏14个,同时将SNP覆盖度提高了约8倍。
新风险位点的发现与验证
经过连锁不平衡聚类后,InsightGWAS共识别出367个独立信号,其中293个为全新位点。这些位点位于多个与偏头痛病理生理学相关的基因附近,包括CACNA1D(钙通道信号)、HTR3C(血清素通路)和NLGN1(突触可塑性)。特别值得注意的是,rs33985936(SCN11A)和rs5753008(HORMAD2)两个位点在独立的大规模测序研究中得到验证,证实了模型的可靠性。在百万退伍军人计划(MVP)队列中,117个新位点至少在一种偏头痛表型中达到名义显著性,23个位点在两种表型中均得到重复。
基因集富集分析
与仅包含41个位点的传统GWAS相比,InsightGWAS预测的387个位点不仅重现了已知的偏头痛相关通路,如神经发生调节和类固醇羟化酶活性,还新发现了氮化合物代谢过程和阳离子结合等通路。这些通路与神经递质合成、离子稳态和皮质扩散性抑制等偏头痛关键病理过程密切相关。
研究结论与意义
该研究证明了深度学习方法在传统GWAS接近检测极限时仍能有效扩展遗传发现的能力。InsightGWAS通过整合多组学特征和迁移学习,成功突破了偏头痛遗传研究的瓶颈,发现了大量新的风险位点和生物学通路。这些发现不仅深化了对偏头痛遗传架构的理解,也为开发新的治疗策略提供了潜在靶点。研究方法为其他复杂疾病的遗传研究提供了可借鉴的新范式,展示了人工智能技术在生物医学研究中的巨大潜力。
研究的局限性在于迁移学习的效果可能因疾病而异,取决于是否存在合适的遗传相关表型和足够大的GWAS数据集。未来工作将扩展至具有不同遗传架构的表型,以进一步明确迁移学习的适用条件。尽管如此,InsightGWAS无疑为充分利用现有数据集、更全面理解偏头痛遗传机制提供了有力工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号