一种纳入样本异质性的基因组网络概率建模框架:GraphR 助力精准解析生物网络

【字体: 时间:2025年02月19日 来源:Cell Reports Methods 4.3

编辑推荐:

  在基因组网络研究中,现有网络建模方法多假设样本同质性,无法适用于异质性疾病场景。研究人员开展 “GraphR:一种纳入样本异质性的基因组网络概率建模框架” 研究,结果显示 GraphR 能准确恢复网络结构,优于其他方法,为精准医学提供助力。

  在生命科学的研究领域,探索复杂生物系统中分子实体间的关系至关重要。基因组网络研究试图解读多种疾病系统中分子之间的复杂联系,然而现有的大多数网络建模方法都假定样本内部和样本之间具有同质性。但像癌症这种典型的异质性疾病,肿瘤内部、肿瘤之间以及肿瘤微环境都存在空间异质性 。若忽略这种异质性,依据 Simpson's 悖论,可能会导致网络估计结果出现偏差,无法反映分子标记之间的真实关联。为了攻克这些难题,来自美国密歇根大学、阿拉巴马大学伯明翰分校、宾夕法尼亚大学、德克萨斯 A&M 大学的研究人员(Liying Chen、Satwik Acharyya 等)开展了深入研究,提出了一种名为图形回归(GraphR1-12)的灵活贝叶斯方法,并将研究成果发表在《Cell Reports Methods》上。这一研究成果意义重大,它能够更准确地估计基因组网络,为深入理解疾病机制和精准医学提供有力支持。
研究人员在研究过程中用到了多种关键技术方法。首先是概率图形模型(PGMs),它通过图和联合概率分布来表示复杂系统中变量之间的依赖关系,为网络推断提供了基础框架。其次是变分贝叶斯(VB)算法,该算法用于模型拟合,通过优化近似分布来逼近真实后验分布,在保证准确性的同时,显著提高了计算效率,使 GraphR 在处理高维数据时具有优势。此外,研究使用了多个公开的数据集,如来自癌症基因组图谱(TCGA)的乳腺癌相关数据,包括蛋白质组学和空间转录组学数据等,为研究提供了丰富的样本资源。

研究结果主要从以下几个方面展开:

  • Simpson's 悖论的例证:研究人员通过一个简单的三节点图形模型示例,展示了 Simpson's 悖论在图形模型中的体现。当忽略样本的离散异质性时,会得出错误的结论,这强调了在网络建模中考虑异质性的重要性。
  • GraphR 在样本异质性存在时准确恢复网络结构:通过模拟实验,在无向图和有向图的多种场景下对 GraphR 进行测试,并与多种相关方法对比。结果表明,GraphR 在存在基于内在因素的异质性时,结构恢复性能更好,在控制错误发现率(FDR)的同时,具有较高的马修斯相关系数(MCC),能够有效平衡真阳性和假阳性的恢复率。
  • 基于蛋白质组网络的 BRCA 内在亚型特征分析:应用 GraphR 分析来自 626 名 BRCA 患者的 190 种蛋白质数据,发现了不同亚型 BRCA 之间共享和特异性的蛋白质网络连接。例如,磷酸化的 EGFR 在某些亚型中具有较高的共表达,同时还发现了不同亚型中蛋白质之间的正负相关性以及不同亚型在功能通路连接性上的差异。
  • 跨妇科癌症的泛癌分析:使用 GraphR 分析 BRCA 及其他三种妇科癌症的蛋白质组数据,鉴定出了跨癌症类型的枢纽蛋白,如 EGFR * 在 BRCA 和 UCEC 中均发挥关键作用。
  • BRCA 中干细胞诱导的蛋白质组网络异质性特征分析:通过获取基于 DNA 甲基化(mDNAsi)和 mRNA 表达(mRNAsi)的干细胞指数,应用 GraphR 研究 BRCA 在不同去分化水平下蛋白质组网络的变化。发现了一些共享和特定的枢纽蛋白,以及部分蛋白质对的共表达模式与去分化水平的关联,同时还观察到某些通路对 mRNAsi 变化的敏感性差异。
  • GraphR 实现纳入肿瘤微环境空间异质性的网络估计:利用乳腺癌的空间转录组学数据集,GraphR 能够推断出空间变化的网络,识别出不同空间区域的枢纽基因和特异性连接。例如,HLA-B 在不同区域的相关性不同,以及某些基因对在正常和肿瘤区域呈现不同的部分相关性。
  • 计算成本:GraphR 相比现有允许估计样本特异性图的贝叶斯方法,具有显著的计算效率优势。它采用变分贝叶斯算法代替 MCMC,在不同场景下计算速度比其他方法快数千倍,且计算复杂度为 ,使其适用于处理高通量多组学数据。
  • GraphR 软件包和 Shiny 应用程序:GraphR 以快速且用户友好的 R 包形式实现,具有多种网络估计、预测和可视化功能。同时开发的 Shiny 应用程序,为用户提供了动态平台,方便用户探索、可视化和重现异质网络,且无需 R 编码知识。

在研究结论和讨论部分,GraphR 作为一种监督概率网络建模方法,能够有效整合多种异质性内在因素,更精确地估计图结构。它在处理连续变量和多类别图推断方面具有灵活性,并且通过使用变分贝叶斯算法提高了计算效率 。通过对多种数据集的分析,GraphR 揭示了不同层面的生物学机制,如在乳腺癌亚型特异性蛋白质组网络、去分化相关蛋白质组网络以及肿瘤微环境空间网络中的发现,这些都有助于更深入地理解疾病机制。不过,GraphR 也存在一些局限性,例如主要依赖线性假设、假设数据服从多元正态分布以及仅考虑完整病例等,未来可通过纳入高斯过程等方法进行改进。总体而言,GraphR 为基因组网络研究提供了一种强大的工具,对推动精准医学发展具有重要意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号