综述:基于网络的多组学整合分析方法在药物发现中的应用:一项系统综述

【字体: 时间:2025年03月29日 来源:BioData Mining 4

编辑推荐:

  这篇综述聚焦于药物发现中基于网络的多组学整合分析方法。文中对相关方法进行系统分类,探讨其在药物靶点识别、药物反应预测和药物再利用等方面的应用,并评估性能,分析挑战与未来方向,为该领域研究提供全面参考。

  ### 基于网络的多组学整合分析方法在药物发现中的应用:一项系统综述
在生命的微观世界里,人体每秒都在经历着数以百万计的信号传递,细胞、组织、器官与外界环境刺激之间存在着复杂的相互作用。随着高通量测序成本的降低以及相关技术的发展,大量生物数据得以收集,涵盖了基因组学、转录组学、蛋白质组学、代谢组学等多个层面的数据,还有生理和临床数据。
然而,单个数据类型难以捕捉到疾病等复杂现象背后的所有因素。例如,癌症的发生往往不是某个单一基因的突变导致的,而是相关信号通路被破坏的结果。生物分子并非孤立发挥作用,它们相互作用形成生物网络,如基因共表达网络、蛋白质 - 蛋白质相互作用(PPI)网络、药物 - 靶点相互作用(DTI)网络等。将多组学数据与生物网络相结合进行分析,成为了药物发现领域的热门研究方向。

在药物发现的征程中,传统方法面临着诸多挑战。药物研发失败率高,且传统预测新药的方法既耗时又耗费资源。而基于网络的多组学整合方法为药物发现带来了新的曙光,它能够捕捉药物与多个靶点之间的复杂相互作用,更好地预测药物反应、识别新的药物靶点并促进药物再利用。但目前该领域也面临着一些问题,比如缺乏标准化的评估框架、计算效率有待提高、模型复杂度增加的同时难以保证生物学可解释性等。

为了深入探究基于网络的多组学整合方法,研究人员进行了全面的文献回顾。他们采用了系统的文献搜索和收集策略,在 2015 - 2024 年期间的众多文献中筛选出符合特定标准的研究,这些标准包括研究需提出基于网络的多组学整合新方法或对现有方法有显著改进、在药物发现或药物反应预测中有明确应用、使用标准指标进行性能评估、利用多种组学数据以及在分析框架中纳入生物网络信息等。

研究人员根据算法原理和生物学应用,将基于网络的多组学整合方法分为四类:网络传播 / 扩散方法、基于相似性的方法、图神经网络方法和网络推理模型。

  1. 网络传播 / 扩散方法:这类方法源于社会科学和数学理论,其核心思想是生物信息在相互连接的生物分子网络中传播。就像信息在社交网络中传播一样,生物信息通过节点(如基因、蛋白质、代谢物)和边(它们之间的相互作用或功能关联)构成的网络进行传递。在整合分析时,该方法将组学数据转化为分数向量并映射到网络节点上。常见的算法有随机游走(Random Walks)、热扩散过程(Heat Diffusion Processes)、标签传播(Label Propagation)等。随机游走算法通过多次迭代在网络中探索,但计算成本较高,且结果对参数选择较为敏感;热扩散过程能保证信息充分传播,但对网络初始状态敏感;标签传播计算复杂度低、效率高,但在某些网络结构中可能存在收敛困难的问题。这些方法可用于预测药物反应,识别潜在的药物候选物和生物标志物。
  2. 基于相似性的方法:该方法借鉴了推荐系统中的协同过滤算法。首先为每种组学数据类型构建相似性网络,通过比较药物和疾病的特征相似性,预测哪些药物可能对特定疾病亚型有效。相似性网络融合(SNF)是这类方法中的经典,它通过迭代融合不同组学数据的相似性矩阵,构建综合的患者相似性网络,在疾病亚型分类和药物反应预测中发挥了重要作用。此外,网络对齐方法可识别不同组学网络中的对应节点或子图,多层网络集成方法则将多组学数据表示为相互连接的网络层,以捕捉层间关系。
  3. 图神经网络方法:图神经网络(GNNs)是分析和整合多组学数据的强大工具,它将传统神经网络的能力扩展到图结构数据上。在多组学整合中,不同组学层被表示为相互连接的图,节点代表生物实体,边代表它们之间的关系。GNNs 通过学习相邻节点的信息进行信号传播,能够捕捉生物系统中的复杂关系。例如,图卷积网络(GCN)为后续发展奠定了基础,Decagon 利用 GNN 预测多药治疗的副作用,MGNN 用于癌症预后预测,MOFGCN 则在预测药物反应方面展现出较高的准确性。不过,GNNs 的模型可解释性是一个挑战,目前有研究通过引入如层间相关性传播(LRP)等技术来解决这一问题。
  4. 网络推理模型:基于因果关系的网络推理方法致力于揭示复杂的生物关系并预测药物反应,概率图模型(PGMs)是其理论基础。PGMs 结合图论和概率论,用图结构表示分子实体之间的概率关系。贝叶斯网络(BNs)是 PGMs 的一个子类,它可以引入先验知识,通过边的方向表示因果关系或信息流,在预测药物反应和推断基因 - 药物相互作用方面具有重要应用。因果推理网络则更侧重于推断因果关系,将 BN 和因果推理网络的原理相结合,能够推断多层分子之间的时间因果关系。此外,一些新方法如 NetMIM、Cobolt 等,通过整合传统方法与现代统计技术,进一步提升了多组学数据分析的能力。

多组学整合在药物发现中的应用主要体现在三个关键领域:

  1. 药物靶点识别和验证:该领域旨在利用多组学数据和生物网络来发现和验证潜在的药物靶点。例如,REMAP 整合多种药物 - 靶点相互作用数据,构建综合网络,并运用矩阵分解和协同过滤技术预测新的相互作用,提高了药物靶点发现的效率和准确性。AOPEDF 则整合了 15 种不同的生物网络,构建异质网络,利用网络嵌入和级联森林等先进机器学习算法,从多个维度预测和优先排序药物 - 靶点相互作用,并阐释药物作用的潜在机制。
  2. 药物反应预测和个性化医疗:这一领域致力于预测个体患者对药物的反应,为个性化治疗决策提供支持。MOMLIN 整合临床数据、突变数据、基因表达等多方面信息构建驱动信号网络,通过稀疏相关分析识别与药物反应相关的特征,进而开发药物反应预测器,在预测紫杉醇反应时发现了免疫相关通路的重要性。CancerOmicsNet 运用图神经网络和注意力传播机制,从多种数据构建癌症特异性网络,在预测激酶抑制剂的治疗效果方面表现出色,尤其在对新细胞系和新药物的反应预测上具有较高的准确性和泛化能力。NIHGCN 通过构建药物和细胞系的异质网络,考虑节点和元素间的相互作用,利用并行图卷积和邻域交互层捕捉多组学数据中的复杂模式,提升了药物反应预测性能。
  3. 药物再利用和联合治疗设计:此领域专注于挖掘现有药物的新治疗用途,并开发协同的药物联合治疗策略。DrDimont 基于差异网络分析提出了一种新颖的药物再利用方法,通过整合多组学数据构建疾病特异性分子网络,利用差异分析预测药物在不同疾病背景下的作用差异,从而发现新的治疗适应症。PRODeepSyn 则针对药物联合治疗的挑战,提出了创新的图神经网络框架,利用蛋白质 - 蛋白质相互作用网络整合多组学数据,并通过独特的药物嵌入方法准确表征药物的化学和生物学特性,使用深度学习模型预测药物联合的协同效应,取得了显著的成果。

为了更直观地展示基于网络的多组学整合方法的实际应用和转化潜力,研究人员介绍了两个具有代表性的案例:

  1. 多模态网络整合用于精准癌症治疗:SynGeNet 框架利用网络分析整合多组学数据,以提高精准肿瘤学水平,特别是在预测黑色素瘤不同基因组亚型的药物联合疗效方面表现出色。它构建亚型特异性蛋白质子网,整合基因组变异和转录组特征,通过信念传播方法映射关键驱动基因的网络流,并根据生物学证据和表达水平对网络边进行加权。在预测药物联合效果时,采用连接性映射和网络中心性分析两步法,经过多种方法严格验证,其预测的 BRAF 突变黑色素瘤的药物联合(维莫非尼和维甲酸)在实验中展现出显著的协同效应,不仅在体外实验中增强了细胞毒性和诱导凋亡,在体内异种移植模型中也使肿瘤明显缩小。
  2. 深度学习增强的异质网络整合:AOPEDF 是一种用于系统预测药物 - 靶点相互作用的新型深度学习方法,它整合了 15 种不同的生物网络,包括以药物为中心和以蛋白质为中心的网络。该方法引入了网络嵌入、深度森林技术等创新点,在多个验证场景中表现出强大的性能,在内部 5 折交叉验证和外部验证集上都取得了优异的结果,并且在识别物质滥用障碍的新型药物 - 靶点相互作用方面发挥了重要作用,成功预测了如阿立哌唑与 HRH3 之间的相互作用。

对这四类主要方法进行性能比较后发现,每种方法都有其独特的优势和局限性。网络传播 / 扩散方法擅长揭示隐藏的关联,但在大规模网络中计算成本较高;基于相似性的方法在处理复杂的组学关系时表现出色,但可能会忽略局部精细的相互作用,且对相似性度量的选择较为敏感;图神经网络方法能够有效处理大规模异质生物网络,但模型可解释性有待提高;网络推理模型在揭示因果关系和处理不确定性方面具有优势,但计算成本高,且推理质量依赖于先验知识的准确性。未来,多组学整合的发展趋势是采用协同方法,结合多种方法的优势,例如 NETTAG 整合了网络传播、贝叶斯推理和网络邻近分析等方面,在药物再利用预测中取得了更好的效果。

尽管基于网络的多组学整合在药物发现中取得了显著进展,但仍然面临着诸多挑战:

  1. 数据异质性和复杂性:多组学数据包含多种类型,如 DNA 突变、基因表达谱、蛋白质 - 蛋白质相互作用和表观遗传修饰等,这些数据在技术和尺度上存在差异,且往往存在噪声、稀疏和高维的问题。不同组学数据的分辨率和尺度也不同,例如基因组数据相对静态,而转录组学和蛋白质组学数据反映的是动态变化。目前的方法如 SNF 在处理这些问题时存在可扩展性和对相似性度量敏感的问题。此外,单细胞和空间组学技术的出现增加了数据整合的复杂性,虽然有一些针对单细胞数据的图模型,但仍缺乏通用框架来整合这些新兴数据类型。
  2. 模型复杂性与生物学可解释性的平衡:随着基于网络的方法不断发展,尤其是机器学习方法的应用,预测准确性得到了显著提高,但生物学可解释性却受到了影响。像 GNNs 和深度学习架构等先进模型通常被视为 “黑箱”,难以解释其预测背后的生物学机制,这对于生物医学研究来说是一个关键问题,因为理解预测的原理对于实验验证和临床转化至关重要。不过,目前已经有一些技术如 LRP 和注意力机制在一定程度上提高了模型的可解释性,未来还需要进一步开发适用于多组学数据的可解释人工智能框架。
  3. 方法开发中的标准化和基准测试:当前,基于网络的多组学整合方法缺乏标准化的评估框架,不同研究使用不同的数据集、性能指标和实验设计,这使得方法之间的比较变得困难,阻碍了研究的可重复性和实际应用转化。一个标准化的基准测试框架应包含多样的数据集、综合的评估指标(不仅包括传统的准确性和精度,还应涵盖可解释性、稳健性和计算效率等)、开放访问的工具和资源以及新兴的网络多组学分析平台,这些平台应具备标准化的流程、交互式可视化工具和社区驱动的基准测试计划。

展望未来,基于网络的多组学整合领域将朝着几个重要方向发展:

  1. 整合时间和空间动态:目前的方法大多关注静态网络,未来将时间序列数据和空间组学数据整合到网络模型中,有助于揭示基因调控、蛋白质相互作用和代谢途径的动态变化,以及组织特异性的分子相互作用,从而更全面地理解疾病生物学。
  2. 采用自监督学习和迁移学习:自监督学习可以利用未标记数据学习通用特征,这对于标记数据稀缺的多组学数据集尤为重要。迁移学习则可以将在一个数据集上训练的模型应用到其他数据集,提高基于网络的方法在不同疾病和人群中的泛化能力。
  3. 混合方法的发展:结合多种方法的优势,如将网络传播、GNNs 和概率推理整合到一个统一框架中,可以克服单个方法的局限性,提供更全面的多组学整合视角,实现更准确的预测和更深入的生物学洞察。

总之,基于网络的多组学整合是药物发现领域的强大范式,能够更准确地预测药物反应、识别新的治疗靶点。虽然在提高预测准确性和生物学可解释性方面已经取得了显著进展,但在处理数据异质性、计算可扩展性和评估框架标准化等方面仍面临挑战。未来的发展需要关注将时间和空间动态整合到网络模型中、在不牺牲预测能力的前提下提高模型可解释性、开发适用于大规模多组学数据集的可扩展算法以及建立标准化的评估框架等关键领域。只有成功解决这些挑战,才能将计算成果转化为临床实际应用,推动精准医学和药物开发领域的进步。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号