深度融合不完整多组学数据揭示阿尔茨海默病分子机制的新型神经网络模型TransFuse

【字体: 时间:2025年08月19日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对多组学数据不完整和整合困难的挑战,开发了可解释的深度跨组学融合神经网络TransFuse。研究人员通过整合SNP、基因表达和蛋白质数据,结合先验生物网络知识,实现了对缺失组学数据的有效利用,并在阿尔茨海默病(AD)队列中验证了其优越性能。该方法不仅显著提升分类准确率(F1=0.82),还识别出VEGF/EPH等关键通路及tau_PHH1_S40410、APOE等核心生物标志物,为AD机制研究提供了新视角。

  

阿尔茨海默病(AD)作为最常见的神经退行性疾病,其复杂分子机制一直是研究难点。尽管多组学技术为揭示疾病机制提供了全新视角,但实际研究中常面临两大困境:一是样本组学数据不完整导致大量病例被排除,二是现有方法难以捕捉从DNA到蛋白质的动态信息流。更棘手的是,约40%的AD风险SNPs位于非编码区,传统方法无法有效关联这些遗传变异与下游分子变化。这些瓶颈严重制约了多组学数据在精准医学中的应用价值。

在此背景下,研究人员开发了TransFuse——一种基于模块化架构的深度跨组学融合神经网络。该研究创新性地采用三模块设计(SNP/基因/蛋白质),通过预训练策略整合1,717例ROS/MAP队列的不完整多组学数据,其中仅464例具有完整组学特征。模型利用Reactome和SNP2TFBS数据库构建先验网络,引入L1正则化筛选功能连接,最终在独立队列MSBB中验证了其可靠性。相关成果发表于《Scientific Reports》,为AD机制研究提供了新范式。

关键技术包括:1) 基于图神经网络的模块化架构,支持跨组学信息流建模;2) 预训练-微调策略,利用1,253例缺失组学样本提升模型鲁棒性;3) 整合822个SNPs、743个基因和186个蛋白质的先验网络;4) 前额叶皮层组织特异性eQTL分析;5) 基于积分梯度的特征重要性评估。

【分类性能】

TransFuse在5项指标中4项领先,F1达0.82±0.03,显著优于MOGONET等对比方法(p<0.05)。蛋白组学模块贡献度最高,单独使用时性能接近完整模型,印证蛋白质作为分子终产物的核心地位。

【AD相关多组学子网络】

模型识别出20个肽段、107个基因和7个SNPs构成的4个功能模块。最大子网络包含tau_PHH1_S404肽段(与神经纤维缠结形成相关)和APOE基因,后者通过EGR1基因调控神经炎症。值得注意的是,APP_2-APH1A/CD44_2-EGR1通路揭示了γ-分泌酶加工淀粉样前体蛋白与神经炎症的协同作用机制。

【eQTL分析】

5/7的SNPs在前额叶皮层呈现显著eQTL效应(如rs1216179对PPIL5/RHOQ基因,p=2.17×10-2),证实模型捕捉组织特异性调控的能力。

【通路富集】

VEGF(p=3.8×10-5)和EPH(p=4.54×10-8)通路最显著,二者通过调控突触可塑性和血管生成共同影响AD进程。

这项研究通过创新算法解决了多组学整合的三大难题:数据缺失、跨组学关联弱、非编码区变异解释难。TransFuse不仅将可用样本量提升270%,其识别的PIK3R1_1-ANGPT2等互作模块更为AD治疗提供了新靶点。局限性在于先验网络仅覆盖启动子区SNPs,未来整合Hi-C数据有望增强远端调控解析。该框架可扩展至其他复杂疾病研究,推动多组学数据向临床应用的转化。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号