MosGraphFlow:基于多组学信号图整合AI模型挖掘阿尔茨海默病关键靶点的新方法
【字体:
大
中
小
】
时间:2025年10月07日
来源:BMC Methods
编辑推荐:
本研究针对多组学数据整合分析中关键疾病标志物识别与核心信号通路推断的难题,开发了新型图神经网络模型MosGraphFlow。该模型通过整合基因组学、转录组学、表观基因组学和蛋白质组学数据,结合KEGG信号通路构建多组学信号图,利用创新的模块化消息传播机制,在阿尔茨海默病(AD)数据集中不仅实现了最佳分类准确率,还成功识别了重要的AD生物标志物和信号相互作用。研究开发的可视化工具能够特异性显示不同组学水平的信号源,为理解疾病发病机制提供了重要见解。
随着生物医学研究的深入,多组学数据为全面理解复杂疾病提供了前所未有的机遇。与单一组学数据相比,整合基因组学、转录组学、表观基因组学和蛋白质组学的多组学数据集能够从多个维度更好地表征细胞信号通路。然而,如何有效整合这些多组学数据来识别关键疾病生物标志物并推断核心信号通路,仍然是一个悬而未决的挑战。
阿尔茨海默病(AD)作为最常见的痴呆症病因,主要影响65岁以上人群,尽管从40岁左右开始的年轻病例也日益增多。AD以进行性认知障碍为特征,表现为细胞外淀粉样蛋白-β斑块和细胞内神经原纤维缠结(NFT)这两个标志性神经病理学特征,这些是由淀粉样蛋白-β积累和tau蛋白过度磷酸化引起的。与这些标志相关的是血脑屏障破坏、线粒体功能障碍、神经炎症、突触损伤和神经元丢失。2023年美国的AD患病率估计为670万人,预计到2060年将翻倍达到1380万人。尽管在上个世纪进行了广泛研究,AD仍然无法治愈,目前的治疗方法只是对症治疗而非疾病修饰。
面对这些挑战,通过先进的图AI模型利用多组学数据为AD研究提供了一个有前景的新方向。传统AI模型往往难以充分利用多组学数据的丰富性,因为其复杂性和高维特性。近年来,图神经网络(GNN)由于能够利用图结构数据中的关系而日益受到重视。然而,现有的多组学研究方法如MOGONET、MoGCN、GCN-SC和MOGCL都存在局限性:它们都没有考虑整合KEGG等结构化信号数据,且一般GNN模型受到表达能力的限制,即低通滤波或过度平滑问题,这阻碍了它们整合多层的能力。
为了解决这些问题,研究人员开发了mosGraphFlow这一新颖的图AI模型,专门用于分析多组学信号图(mosGraphs)。该研究有三个主要贡献:开发了用于mosGraphs的图神经网络模型;分析了AD的多组学mosGraph数据集;识别、可视化并评估了一组AD相关的信号生物标志物和网络。
研究人员从公开可用的ROSMAP数据集中获取了AD的多组学数据,包括甲基化、突变、基因表达和蛋白质表达数据。这些数据集被处理成二维数据框架,通过对行(探针、基因符号、基因ID等)进行标准化到统一的基因水平格式。每个组学类型采用不同的预处理步骤以确保在mosGraphFlow模型中的兼容性。甲基化数据从CpG位点映射到基因水平,关注转录起始位点(TSS)周围-6kb到+3kb区域;基因组学数据(突变和变异)经过过滤仅保留非沉默突变;转录组学数据使用FPKM方法进行标准化;蛋白质组学数据使用中位数log2标准化。所有数据集使用Ensembl参考数据库进行比对,并整合到统一的基因集中进行分析。
对于知识图谱构建,通过将多组学数据集与KEGG数据库中的基因调控网络取交集来选择基因,KEGG数据库包含2241个基因和21041条边。这种交集产生了2099个基因实体。通过将蛋白质-蛋白质相互作用(PPI)和基因调控通路映射到处理后的多组学数据,将这些KEGG通路整合到mosGraphFlow模型中。
mosGraphFlow模型的架构设计用于增强多组学数据的分析和预测能力。模型生成图G=(V,E),其中|V|=n。图中有三种类型的节点:n(meth)、n(gene)和n(prot),它们具有相同数量的节点,n=n(meth)+n(gene)+n(prot)。整个图G可以分解为子图G′和GPPI,其中G′=G\GPPI;G′是内部信号流图,仅包含从启动子到蛋白质的信号流;GPPI是蛋白质-蛋白质相互作用(PPI)图(|VPPI|=n(prot))。
模型的消息传播分为三个阶段:内部模块消息传播、信号通路子图中的多跳消息传播,以及全局双向消息传播。在内部消息传播阶段,通过矩阵A′进行消息传递;在信号通路子图阶段,通过K跳基于注意力的图神经网络整合每个信号通路子图的局部结构;在全局传播阶段,通过加权双向图神经网络(WeBGNN)执行全局加权双向消息传播。
研究使用了来自ROSMAP数据集的437个样本,根据疾病状态(275例AD,162例非AD)和性别(276名女性,161名男性)进行分类。为了解决数据不平衡问题,对两个分类任务都进行了下采样处理。采用5折交叉验证方法将数据集分为训练集和测试集,使用Adam优化器进行训练。
模型比较结果显示,mosGraphFlow在AD/非AD和女性/男性分类任务中都显著优于其他广泛使用的模型(GCN、GAT、GIN和UniMP)。基于注意力的分析用于识别和细化与AD相关的关键分子特征,通过设置边阈值θ为0.176,小组件φ为15,分别确定了AD和非AD的82和81个潜在重要蛋白质节点。通过过滤掉Mann-Whitney U检验计算的p值大于0.2的节点,选择了与AD相关的top 70基因特征。
通路富集分析使用ShinyGO 0.80和KEGG通路数据库对AD相关的top 70基因进行,揭示了涉及这些基因的top 20信号通路。这些通路包括Apelin信号通路、催产素信号通路、长时程增强(LTP)、卵母细胞减数分裂、谷氨酸能突触、胆碱能突触、GABA能突触等,这些通路在神经炎症、突触可塑性和神经退行性变中发挥着重要作用。
研究发现,Apelin信号通路通过调节细胞凋亡、自噬、突触可塑性和神经炎症,在AD中具有重要的神经保护功能。Apelin-13作为apelin家族的关键成员,通过调节PI3K/Akt、MAPK和PKA等信号通路,对细胞增殖和兴奋性毒性保护至关重要。催产素信号通路影响社会行为、神经炎症和认知功能,Oxt给药已显示可逆转AD模型中的学习和记忆障碍。长时程增强(LTP)对于突触强度和记忆形成至关重要,在AD中,Aβ积累通过干扰钙信号和受体功能破坏LTP,损害突触可塑性并导致认知衰退。
研究还发现,AD的发生和发展与神经递质系统功能障碍密切相关,包括谷氨酸能、胆碱能、GABA能和多巴胺能突触。谷氨酸能突触对认知和行为功能至关重要,在AD中显著受影响;胆碱能突触也关键参与,胆碱能萎缩加速认知衰退;GABA能突触负责抑制性信号传导,在AD中由于GABA受体系统和神经元周围网络的变化而 disrupted。
该研究在分析AD复杂多组学数据方面取得了显著进展。通过整合多个组学层(表观基因组学、基因组学、转录组学和蛋白质组学),提供了疾病相关分子机制的整体视图。通过将这些层嵌入到结构化信号图中,模型在预测准确性和生物标志物识别方面实现了实质性改进,突出了与AD发病机制相关的关键基因和通路。该方法的优势在于其基于图的结构,通过纳入KEGG通路捕获生物相互作用,使模型能够利用基因和蛋白质之间复杂的相互联系,这些往往被传统方法忽视。包含多跳消息传播和基于注意力的机制允许在不同组学水平有效识别关键分子相互作用,提供与既定AD研究很好吻合的可解释结果。
此外,该模型在AD与非AD分类以及AD样本内的性别亚组分类中都表现出鲁棒性,表明在AD病理中存在潜在的性别特异性分子差异。通路富集和推断的信号网络进一步通过识别在AD神经退行性变、炎症和突触功能障碍中已知发挥作用的通路验证了模型。值得注意的是,Apelin信号、催产素信号等通路以及长时程增强和卵母细胞减数分裂等细胞过程被反复强调,表明它们在AD神经炎症和突触损伤中的重要性。研究结果还与神经递质系统(谷氨酸能、胆碱能和GABA能)的 observed 功能障碍产生共鸣,这些是AD发病机制中的关键组成部分。
研究表明,该图AI模型具有用于多组学数据整合和AD生物标志物发现的潜力。通过捕获多级分子相互作用,它提供了对AD发病机制更全面的理解,不仅识别了潜在的生物标志物,还确定了可以作为治疗靶点的通路。其性能超越传统GNN,突出了它在处理多组学数据复杂性方面的价值。该研究肯定了多组学整合在AD研究中转化应用的潜力,并为未来研究奠定了基础,以完善我们对疾病机制和干预策略的理解。鉴于其灵活性,该方法也可以适用于其他疾病,使其成为旨在识别疾病特异性靶点的精准医学努力中的宝贵工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号