综述:蛋白质翻译后修饰的通路中心分析的计算方法

《PROTEOMICS》:Computational Approaches for Pathway-Centric Analysis of Protein Post-Translational Modifications

【字体: 时间:2025年10月20日 来源:PROTEOMICS 3.9

编辑推荐:

  这篇综述系统梳理了当前用于蛋白质翻译后修饰(PTM)通路中心分析的计算工具与数据库,重点评述了磷酸化修饰的分析策略与挑战。文章详细介绍了包括PhosphoSitePlus(PSP)、PTMSigDB在内的关键数据库,比较了过表达分析(ORA)、功能类别评分(FCS)和通路拓扑(PT)等富集方法,并探讨了基于先验知识网络(PKN)的路径提取与预测算法(如PCST、PHONEMeS)。作者强调多维度数据整合与可视化平台(如PTMNavigator)的重要性,并指出当前领域在功能注释完整性和算法可靠性方面的局限,呼吁建立标准化评估体系以推动未来发展。

  

ABSTRACT

蛋白质功能通过翻译后修饰(PTM)动态调控。目前可通过质谱技术大规模鉴定和定量多种PTM类型。PTM通常影响蛋白质功能和细胞过程,需在通路整体背景下研究。本文系统综述了PTM数据通路中心分析工具,评估了该领域现状,涵盖构成先验知识的基础数据库、典型分析步骤(如通路富集分析、通路重建算法、结果整合与可视化),反思现有工具的共性局限,并提出未来发展方向的见解。

Abbreviations

API(应用编程接口)、FCS(功能类别评分)、GSEA(基因集富集分析)、ORA(过表达分析)、PCST(奖品收集Steiner树)、PKN(先验知识网络)、PPI(蛋白质-蛋白质相互作用)、PSP(PhosphoSitePlus)、PT(通路拓扑)、RWR(重启随机游走)、SPIA(信号通路影响分析)、ssGSEA(单样本基因集富集分析)、TPS(时间通路合成器)

1 Introduction

PTM研究已从专业领域发展为分子生物学核心支柱。PTM作为细胞响应环境、调控信号通路和代谢过程的分子语言,使细胞能够快速适应而不需新蛋白质合成。PTM在复杂网络中运作,由书写酶和擦除酶(如激酶/磷酸酶、乙酰转移酶/去乙酰化酶、E3连接酶/去泛素化酶)调控,形成调控回路促进信息传递与交叉对话。技术进步使得高通量测量多种PTM成为可能,例如μPhos平台可定量每个样本超过17,000个磷酸化位点,泛素化工作组利用K-ε-GG抗体检测数千个泛素化位点。然而,将通路信息整合到PTM数据分析中并不直接,可用选项繁多且复杂。
本综述概述了用于PTM通路中心分析的计算工具,构建了典型分析步骤序列(图1),并将代表性方法和资源匹配到各步骤。从组成先验知识基础的数据库比较开始,随后讨论将该知识与实验PTM数据结合以识别富集通路的方法。由于基因中心分析已成熟但PTM层面分析尚未完善,本文探讨了现有方法及基因中心算法的可转移性。鉴于富集分析仅返回数据库注释的经典通路或生物功能列表,许多用户希望更深入探索或发现特定模型系统和实验条件下的通路结构,因此后续部分专注于数据驱动的通路重建方法,区分利用先验知识网络(PKN)提取与输入数据集最相关相互作用的“网络提取”工具和从头预测新链接或通路的“网络预测”工具。最后,考察了整合和可视化其他工具结果的平台,这些平台尤其适合非生物信息学背景用户,因其常包含富集或重建算法的图形化实现。
本文专注于协助PTM数据通路背景解释的代表性工具。对于紧密相关主题(如PTM数据预处理、酶-底物预测、酶活性推断和多组学整合),请参阅近期高质量综述。

Box 1. PTM数据预处理注意事项

准备大规模PTM数据集进行下游分析时,需处理多种模糊性。通常无对错之分,但比较不同数据集时,需以相同方式解析这些模糊性。
  1. 1.
    测量在肽段水平进行,但多数分析工具需要位点水平数据;因此需处理含多个PTM的肽段。选项包括:多次使用测量值(即每位点分配肽段的定量值,但可能引入数据分布偏差)、完全移除肽段(仅允许明确PTM用于分析)、或使用高级统计如msqrob2PTM实现的线性混合模型方法。首选选项是重用定量值,但需避免在下游分析(如富集或酶活性分析)中多次计算相同测量。
  2. 2.
    第二个问题是存在多个测量的PTM,可能由于漏切或肽段带或不带额外PTM被测量。可通过跨所有PTM观测值取均值、总和、最小值或最大值等聚合方法解决,或移除任何模糊PTM,或使用线性混合模型。虽然这可能减少数据集大小,但避免了分析陷阱。
  3. 3.
    第三,肽段通常可归属于多个蛋白质(因蛋白质有多个异构体)。可通过仅选择经典异构体、文献证据最多的蛋白质(或UniProt中的注释水平),或简单地在分析中包含所有可能注释来解决。取决于分析类型,最后选项可能引入不必要偏差(位点因其蛋白质有许多异构体而被过度代表)。为简化,建议仅将PTM归因于经典异构体。
  4. 4.
    最后,由于碎片质谱中缺乏肽段特异性离子,PTM在肽序列中的定位常模糊。搜索引擎通常输出修饰位置的概率分数,但这些置信度有限。可使用PyAscore等额外软件改进,但一些不确定性常残留。用户可仅保留超过特定概率阈值的位点,或保留所有位点并将概率附加到定量值。前者被认为是控制错误定位率的最佳实践,但后者在多位点被聚合(如按酶或蛋白质)的下游分析中表现良好。

2 PTM and Pathway Databases

存在大量包含PTM和生物通路集体知识和/或实验数据的数据库。这些资源多数设计有主要焦点——PTM或通路——但一些提供支持互补视角分析的功能。考察了数个代表性例子,主要特征比较见表1。总体发现存在对磷酸化的偏向,部分合理因它被认为是细胞信号中最重要PTM,且可能因易于富集而更常在高通量实验中研究。
最大且最受欢迎的资源是Cell Signaling Technology维护的PhosphoSitePlus(PSP)。尽管其名,它不仅限于磷酸化,还整合了其他四种PTM的实验数据。它经常更新高和低通量数据(当前来自超过31,600篇出版物),辅以近24,000个激酶-底物关系(KSR),允许用户将磷酸化位点连接到上下游调节器。数个其他数据库重用PSP数据, notable examples include iPTMnet and EPSD。前者用文本挖掘从文献提取的知识补充PSP和其他主要资源信息;后者手动策划了PSP子集和700多项磷酸化组学研究,结合了相关信息源(如疾病关联或药物-靶点关系)。独立于PSP的努力是iKiP-DB,它是Ishihama实验室从体外激酶测定编译的激酶-底物库。该资源避免了潜在研究偏差,因每种激酶在底层实验中受到相同对待,但体外设置仅评估每种激酶的序列特异性,不揭示激酶与其推定底物是否在活细胞中实际相遇。类似近期努力是Kinase Library,它使用合成肽库分析303个人类丝氨酸/苏氨酸激酶和所有酪氨酸激酶的底物特异性。 resulting dataset can be explored online, and the most likely upstream kinases of any phosphorylation site can be predicted using position-specific scoring matrices.
超越研究个体激酶-底物关系,无法直接用任何迄今列出的数据库进行高级通路分析。PTMsigDB是一个将磷酸化不仅与激酶还与经典通路、药物反应和疾病关联的资源。它从多个资源构建,包括PSP和iKiP-DB。签名以三种格式提供:±7侧翼、Uniprot+位置和PSP位点组标识符。另一显著特性是注释是双向的,这是进行分析时常被忽视的关键信息。然而,其蛋白质组覆盖相对于基因级别对应物MSigDB较低。提供图形网络前端的pan-PTM数据库是ActiveDriverDB,它致力于收集人类基因中影响PTM的突变。主页包括网络视图,可可视化目标蛋白质的所有已知突变和受影响酶-底物关系。网站允许上传自定义单核苷酸变异数据,因此用户可以分析观察到的突变对PTM水平的影响。数据库焦点在磷酸化,但也包括糖基化或sumoylation等。也存在元数据库,如dbPTM,它整合了40多个个体资源,包括PSP、ActiveDriverDB和BioGRID、EPSD等。据出版物,覆盖98种PTM类型;然而在网站上仅能找到76种。FAT-PTM致力于拟南芥,由PhosPhAt数据库数据和其他个体研究支持,以及植物代谢网络通路信息。其网络可视化组件允许从经典代谢通路高级分析缩放到蛋白质异构体水平再到那些蛋白质上的PTM。 Notably, FAT-PTM也支持注册用户创建自定义通路图。
专注于通路的数据库中,SIGNOR是整合PTM数据最广泛的。它由从文献手动提取的因果关系组成(截至2025年6月13,050篇文章),作者报告它覆盖了UniProt人类参考蛋白质组的三分之一。站点也可搜索小鼠和大鼠蛋白质(通过直系同源映射),一些底层实验数据也来自其他生物。SIGNOR的独特特性是其基于D3.js JavaScript库的集成通路可视化器。用户可以搜索蛋白质或蛋白质列表动态创建相互作用网络。搜索引擎也能使用“桥接”蛋白质找到间接连接。可视化指示蛋白质在细胞中定位(细胞外、膜、胞质、核)。虽不以PTM为中心,但许多描述相互作用涉及PTM,高级过滤选项(如“仅显示下调目标活性的磷酸化”)使其对PTM研究者非常有用。每个报告相互作用包括来源出版物链接,通常甚至包括提及关系的句子引用。网站还包含80多个预绘信号和代谢通路图。该领域其他资源不提供此类结合PTM和通路分析的方式。例如,开源努力WikiPathways偶尔在其图中包括PTM。开发者推荐在设计通路图时将PTM信息作为数据节点的“状态”包含,但这仅针对少数通路完成,无法直接进行PTM网络系统分析。同样适用于专有数据库BioCyc和KEGG。Reactome是一个功能单元为反应的数据库,包含许多酶-底物反应但不提供专用分析。元数据库OmniPath具有一些PTM-通路分析功能。其五种资源类型中的两种是PPI网络(从KEGG和SIGNOR等组装)和酶-PTM关系(从11个数据库组装,包括PSP和dbPTM)。然而,与OmniPath的交互仅通过Web服务(RESTful API)可能,可直接查询或通过Python和R包。后者也提供超越简单数据检索的分析功能,如绘制PTM网络。虽然这为自动化分析和将OmniPath集成到其他软件打开了大门,但也构成了非生物信息学用户的障碍。相反,KiNet平台不是为程序访问开发,而是为视觉整合人类激酶-底物注释先验知识(来自PSP、iPTMNet和EPSD)。KiNet用户可以查询感兴趣蛋白质并创建已知KSR的动态图,根据Manning和同事广泛接受的定义按组着色激酶。也提供文献主要知识来源链接。作者还整合了KEGG信息:KEGG通路中所有激酶-底物关系可一起在图中显示以获得信号级联高级概述。类似地,整合了InterPro的域知识:用户可以选择域以显示共享该域所有蛋白质的KSR网络。

3 PTM-Centric Pathway Enrichment Analysis

富集分析是分子生命科学常见工具,自2000年代初应用。它降低了此类数据的复杂性从而促进解释。此类方法的最早化身是过表达分析(ORA)。传统上,在ORA中,实验中被认为两种条件间差异表达的基因集与共同与功能注释(如某些通路)关联的基因集比较。使用Fisher精确检验或卡方检验等统计检验,可以计算两个集之间的重叠是否比偶然预期更大。这些类型分析也称为2×2表方法,因使用列联表比较集大小。接下来,有功能类别评分(FCS)方法(如基因集富集分析(GSEA))。与ORA方法对比,这些利用整个测量基因列表,按定量值排名。FCS方法然后估计注释集是否在排名列表的顶部或底部过代表(使用,例如,Kolmogorov-Smirnov检验或Wilcoxon秩和检验)。第三,通路拓扑(PT)方法也考虑通路内基因或基因产物之间的相互作用,基于通路数据库给出的拓扑。
执行任何此类分析的基本前提是测量数据点的功能注释,即基因、蛋白质或PTM位点。这些注释存在且对基因和蛋白质水平数据已建立良好,但迄今在PTM水平不非常全面。如前一节讨论,当前唯一将PTM映射到通路的数据库是PTMSigDB。因此,对PTM数据执行此类分析的常见方式是将数据折叠到基因(产物)水平,即使通常同意这种实践有缺陷。蛋白质的相对丰度和其上PTM位点的相对占用率通常不相关。而且,同一蛋白质上的不同PTM可能是与不同酶相互作用的结果,并可能对其宿主蛋白质有不同后果。RAF1为例,它可以在S338磷酸化以刺激其催化活性,而在S259磷酸化导致其活性衰减。因此,在本节中,我们概述了执行实际PTM中心富集的选项。

3.1 ORA

理论上可以使用PTMSigDB或PSP的注释调控位点对PTM数据集执行ORA。如果数据允许,我们推荐做FCS,仅当处理非定量数据时(例如,当数据已处理以致仅调控类别(上/下/未调控)保留时)才诉诸ORA。超越那,ORA丢弃了区分数据点的任何进一步信息。如果追求此策略,需要仔细选择统计背景(即2×2表中的右下单元格)以保证假设检验保持公平。这在处理基因水平数据时已经关键,其中不应使用整个参考基因组作为背景,而应仅使用可为目标模型系统测量的基因(或因技术限制或因基因不存在于研究个体中)。由于多数PTM的瞬时性,为此类数据选择适当背景是更大挑战。

3.2 FCS

Krug和同事开发了两种用于PTM研究的FCS方法。一种,PTM-SEA,是真正PTM中心的(图2,上面板)。它使用PTMSigDB数据库(为此目的特定创建)和原始GSEA算法的修改,称为单样本GSEA(ssGSEA)。 Notably, PTM-SEA计算上调和下调的两个独立富集分数(因每个签名包含与相关生物术语激活和衰减关联的位点——签名是双向的)。对于两个方向,数据点按量级排序,对于每位点,计数有多少其他位点具有较低或相等值。属于签名的位点与所有其他位点比较以确定分数。如果其位点不随机分布在列表中而是在顶部或底部积累,签名将获得高分。分数被归一化,显著性使用置换估计。对于偏好基因中心分析的情况(当希望更高覆盖或处理非磷酸化PTM时),作者显示计数具有多个受调控PTM的基因多次是有益的,他们称为基因中心冗余ssGSEA的方法(图2,中面板)。两种策略通常被接受并定期被领域其他组使用。

3.3 PT Methods

虽然FCS方法通常优于ORA方法(如果定量数据可用),但它们仍本质上将通路视为“基因袋”。两者都忽略每个成员在通路内的位置,这通常持有每个组件相关性的关键信息。相反,PT方法将定量数据与功能注释和先验知识相互作用网络的拓扑结合。它们通常需要更多专业知识且比ORA或FCS计算要求更高,执行频率较低。
我们不知道任何为PTM数据分析设计的PT方法,但相信探索此选项是值得的。用于基因和蛋白质水平信息的流行PT方法是信号通路影响分析(SPIA)。Ren和同事通过使用磷酸化蛋白质作为输入(取蛋白质上所有磷酸化位点折叠变化的总和)将SPIA应用于磷酸化组学数据,并得出结论此策略有价值。我们不知道SPIA已与实际PTM网络结合的研究,但相信这可能有益(如何完成的概念图示于图2,下面板)。类似适应可为Yang和同事的“基于拓扑的通路富集分析”(TPEA)设想,其中每个节点在通路中的重要性基于节点的度和上游/下游位置估计。

4 Pathway Reconstruction

迄今描述的所有努力在它们返回给用户功能注释的评分/排名列表(例如,经典通路或推定失调酶)的意义上是相似的。超越此,存在返回试图尽可能解释实验数据的网络的方法。这是一个有吸引力的概念,因为经典通路聚合在大的生物空间(例如,细胞类型、细胞状态、环境因素,有时甚至生物体)上,常未能捕获所有这些参数固定的个体情况。相反,通路重建方法以数据驱动方式操作以确定可能的蛋白质-蛋白质或蛋白质-肽相互作用系列,后者对PTM特别有吸引力。我们这里描述的大多数方法从相互作用的PKN开始。这些方法的目标是移除假阳性边并修剪图到对输入数据集最大相关性的子网络。由于不能进行新预测,必须假设PKN已经包含所有真阳性,即它具有100%灵敏度,并且真实底层通路可以简单地从PKN“提取”。我们称此类方法为提取方法以区别于添加相互作用者(蛋白质或PTM位点)之间新链接的工具,使用不同程度先验知识(我们称这些预测方法)。为评估每个工具在领域的建立程度,我们统计了引用数,排除未评审预印本和由各自工具的第一或通讯作者撰写的出版物(见表2)。

4.1 Pathway Extraction

多种提取工具采用的策略是将问题表述为奖品收集Steiner树(PCST)或林(PCSF),这是由Riccardo Zecchina和Ernest Fraenkel实验室开创的想法(图3,上面板)。简言之,PKN中的节点基于实验数据分配奖品(给那些被认为更必要的节点更高奖品,例如,从它们的显著性或折叠变化派生)。边分配权重对应每个相互作用的置信度(给不确定相互作用更高权重)。PCST算法然后尝试找到连接尽可能多高奖品节点同时仅使用最小权重边的最优子图。通常,最优解包括存在于先验知识但自身没有奖品(即实验证据)的节点。这些所谓的“Steiner节点”对应于数据中不存在(或不显著)但预测重要的通路成员,因此可以产生后续研究的假设。PCSF算法类似但可以预测一组不相交图(林)而不是单个树,使用人工源节点所有其他节点连接到其(这有效地将林转换回树)。Tuncbag等人证明这种方法可以重建激酶/磷酸酶信号网络,并后来将其集成到软件OmicsIntegrator中。它仅为蛋白质水平数据开发和测试,但如果数据和PKN在PTM水平提供,这也会工作。而且,在其原始形式中,算法不考虑调控方向(上或下),仅绝对程度。相反,PHONEMeS为磷酸化组学数据集开发并考虑数据的方向和定量值。它旨在连接用户定义的扰动目标(即实验刺激激活或失活的激酶)到具有显著调控的磷酸肽(图3,中面板)。为实现此,PHONEMeS使用优化方法搜索解释数据的最小可能激酶和磷酸化位点网络。方法偏好包含尽可能多观察变化同时确保网络尊重先验知识拓扑且不与实验结果冲突的解决方案(底层数学方法称为“整数线性规划”)。PKN,由定向和签署的PPI和KSR组成,由OmniPath提供,如果期望,用户可以简单仅使用选定资源或完全提供自己的PKN。输入扰动目标可以通过初始激酶活性推断确定,但由于磷酸化组学数据和先验知识KSR然后被使用两次,这创建了某种依赖性并可能导致PHONEMeS输出的过度解释。如果可能,我们推荐使用独立信息获取扰动目标(如果扰动源是激酶抑制剂,可以使用亲和下拉实验的数据)。来自同一实验室的近期预印本将PHONEMeS的整数线性规划约束重新表述为PCST算法,这强调了其与Tuncbag等人方法的高度相似性。此类方法的第三个工具是时间通路合成器(TPS)(图3,下面板)。它操作时间序列磷酸化组学数据并额外使用无向PPI网络作为输入(此外,用户可以提供关系的方向和符号)。第一步是修剪PKN到相关子网络,使用每个磷蛋白跨所有时间点的最高折叠变化提取相关相互作用。作者推荐使用Tuncbag等人的PCST算法为此。然后,TPS将完整输入转换为形式“蛋白质A在时间点x和y之间被激活/抑制”的离散约束。算法继续提出满足这些约束的可能模型集合,给定PKN的拓扑,然后输出所有有效模型的并集。此方法的一个缺点是定量磷酸肽数据被聚合到蛋白质水平,隐含假设更多磷酸化意味着更高蛋白质活性。这通常不真实,因许多磷酸化位点具有不同于激活的功能。然而,TPS理论上也可以与PTM水平PKN使用,这可能补救此缺点(尽管作者未讨论此选项)。
与这些基于优化的方法对比,CausalPath是一种专注于利用先验知识机制细节的方法(图4,上面板)。作者从观察通路图是异质和不一致的开始。例如,磷酸化反应可以通过从非磷酸化到磷酸化底物的反应建模,激酶作为反应箭头的调节器。但激酶也可能被建模为反应本身的一部分,或反应伙伴可能仅通过代谢物如ATP间接连接。因此,作者定义了12种图形模式,旨在捕获描述(去)磷酸化和基因表达调控的各种方式。然后他们扫描Pathway Commons通路图数据库寻找这些模式的出现,并以签署定向关系形式提取它们。CausalPath用户必须输入磷酸化组学数据,这些数据被离散化为形式“位点X增加/减少磷酸化”的二进制陈述。然后使用逻辑方程测试这些陈述是否与因果先验一致,并且那些方程成立的情况被聚合到输出网络中。与TPS对比,CausalPath考虑磷酸化位点是否对其蛋白质具有激活或失活功能。CausalPath可作为Web服务或作为Java应用程序下载,然后结果可以用Chisio BioPAX Editor可视化。作者提供了详细描述如何准备输入和运行软件的协议论文。
接下来,存在一组使用网络传播的方法,一种通过模拟信息通过先验知识图的传播来提取网络的方法。早期努力由TieDie作者做出,它旨在作为基因表达数据分析工具,但同一组演示了如何使用算法进行磷酸化组学数据(我们参考Garrido-Rodriguez的综述获取算法描述)。最新的基于传播的方法是phuEGO(图4,中面板)。phuEGO利用从多个PPI和KSR数据库编译的PKN。网络中的边权重使用与每个节点关联的GO术语的语义相似性度量建模。作为用户输入,工具需要两个蛋白质水平数据列表,一个用于上调和另一个用于下调(作者推荐通过蛋白质上所有位点的最大对数折叠变化聚合肽水平磷酸化组学数据)。然后应用基于分位数的截止以获得一组“种子节点”。算法的其余部分重复使用重启随机游走(RWR)技术:对于随机游走,图中的每条边被分配转移概率。然后,“步行者”被放置在图中一个位置并根据转移概率从节点移动到节点。如果随机游走“带重启”执行,那么每一步有一定概率步行者返回其起始节点。在PhuEGO中,确定种子节点后,从每个种子节点执行第一轮RWR,PKN和数据的组合形成边的概率分布。这分别为上调和下调完成。随机游走的结果是包含种子节点最可能相互作用者的子网络。在算法的第二部分,这些网络使用作者称为“Ego分解”的策略减少。对于每个种子,提取包含种子局部邻域(最多距离2)的子网络。通过第二次RWR运行,功能上最类似于种子的节点被预测(作者建议它们因此受种子磷酸化水平影响)。这些节点组随后合并为所谓的“超级节点”,并形成超级节点的并图。如果两个超级节点在此并图中连接,第三次RWR传递确定它们之间边的权重。最后,超级节点网络使用Leiden社区检测算法聚类到功能社区。
迄今描述的所有算法为磷酸化组学数据分析开发。一项近期研究还将其他两种PTM数据类型,乙酰化和泛素化,整合到组合通路中心分析中(图4,下面板)。作者未发布计算工具,但他们发布了他们的代码,并且他们的分析策略可以重用于其他多PTM研究。他们用不同酪氨酸激酶抑制剂处理几种细胞系并分别获取三种PTM的数据。然后他们对所有测量一起执行t-SNE并识别PTM空间中的簇。基于此,他们创建了三种不同的网络。第一种在PTM水平,连接显示协调调控的位点。第二种在蛋白质水平。为创建它,作者从PPI的PKN(从各种源数据库如STRING和PSP构建)开始,并移除所有蛋白质之间没有共簇PTM的边。第三,通路水平网络以类似方式创建,即从通路数据库(他们使用当前未维护的NCATS BioPlanet数据库)开始并连接两个通路如果它们包含具有共簇PTM的蛋白质。通路之间的边被分配更重权重如果它们包含更多共簇PTM,通过每个基因在通路数据库中的总体频率归一化。这种多级网络层次是一种有趣的方法,并且将与其他PKN和数据集直接实现。此策略的潜在批评是仅因为蛋白质出现在通路中,并非其上所有PTM必然与其在此通路中的功能相关(用他们的策略,他们隐含地做此假设)。

4.2 Pathway Prediction

对提取方法的批评是许多真阳性实际上未知,因此PKN是现实非常不完整的表示。这使得网络预测方法成为有吸引力的研究领域。据我们所知,没有方法已发布操作大规模PTM数据,可能因为与此类工具的实现和评估相比提取方法更难。然而,我们找到了两个有潜力朝此方向扩展的工具。
2016年,进行了挑战以基准从时间序列磷蛋白数据推断因果信号网络的模型。Prophetic Granger作为74份提交中的顶级表现方法出现(图5,上面板)。它使用Granger因果关系的统计概念从头确定测量蛋白质之间的定向相互作用网络,帮助解释它们的时间轮廓。并行地,Prophetic Granger构建先验知识网络,从Pathway Commons中包含感兴趣蛋白质的所有通路开始,并使用热扩散将它们统一为单个无向网络。这是使用热扩散实现的,网络分析中的一种已建立策略,其中模拟热流以得出关于网络拓扑和连接性的结论。热扩散的结果是无向网络。两个独立网络然后被平均以产生最终(定向)输出,这被显示在重建已知信号网络方面比任一单独方法表现更好(将AUROC从0.55提高到0.797)。然而,作者陈述当以80/20比率组合先验知识和预言Granger推断时实现了顶级结果。而且,底层数据来自反相蛋白质裂解物阵列,因此仅分析了45个磷酸化位点的选择。该方法需要调整以适用于全局PTM数据(例如,如何选择形成PKN的通路),但原则上方法是有趣的。
第二种方法,DMPA,操作任意多组学组合且完全无先验知识(图5,下面板)。它遵循推断信号网络的三步过程:首先,特征(即PTM位点水平的个体定量轮廓)在每种组学类型内比较,并计算两种类型的成对分数:1) Spearman秩相关分数,量化两个位点在一种组学类型的样本中相互关联的程度;2) 化学计量分数,评估两个特征之间的比率如何保守(这可能指示相互作用)。然后使用截止过滤特征对。第二,特征对比较以首先创建3节点团然后模块。第三,模块使用成对比较和合并策略组合成通路。在此步骤,不同组学层也被合并。作者针对STRING和PSP的地面真相评估了此方法,并观察到比领域早期方法更好的性能。基于MATLAB的工具已发布为具有图形用户界面的可执行Windows桌面应用程序,使其对非生物信息学家直接使用。作为纯粹数据驱动工具可以是优势,但DMPA用户也需要记住工具只能推断相关性,不能因果性(这就是为什么
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号