编辑推荐:
蛋白质 - 蛋白质相互作用网络(PPINs)无法完全描述蛋白质相互作用的动态性,而生化途径(BPs)模拟又受限于参数获取和计算成本。研究人员开展基于深度图网络(DGNs)推断 PPINs 敏感性的研究,结果表明该模型预测有效,且 PPIN 结构对推断很重要。此研究为药物设计等提供新方法。
在生命科学的微观世界里,蛋白质之间的相互作用如同一场精密而复杂的 “舞蹈”,它们的一举一动都关乎着生命活动的正常运转。蛋白质 - 蛋白质相互作用网络(PPINs)试图展现这场 “舞蹈” 的全貌,然而它就像一张静态照片,虽能呈现已知的蛋白质相互作用,但无法捕捉蛋白质相互作用的动态变化,那些微妙的动态信息被无情地遗漏了 。而生化途径(BPs)则像是记录这场 “舞蹈” 动态过程的短片,通过数值模拟可以研究其动态特性,如敏感性(衡量输入分子浓度变化对输出分子稳态浓度的影响)。可遗憾的是,现有 BPs 仅覆盖了相互作用组的一小部分,并且模拟常常因为缺乏动力学参数或计算成本过高而受阻。为了填补这一研究空白,来自意大利比萨大学(University of Pisa)的研究人员开展了一项意义重大的研究,相关成果发表在《BMC Bioinformatics》上。
研究人员的目标是利用从 BPs 计算得到的动态特性来丰富 PPINs,构建一个能够直接从 PPINs 预测敏感性的模型。为实现这一目标,研究人员采用了多种关键技术方法。首先,他们从 BioModels 数据库获取 1063 个手动策划的模型,将其转换为常微分方程(ODE)系统并模拟至稳态,计算分子物种对之间的敏感性,创建了 DyBP 数据集 。接着,把敏感性信息映射到 BioGRID 蛋白质 - 蛋白质相互作用网络上,得到 DyPPIN 数据集。最后,利用深度图网络(DGNs)对 DyPPIN 数据集进行训练,以预测蛋白质之间的敏感性关系 。
下面让我们深入了解一下具体的研究结果:
- 数据集分析:DyPPIN 数据集包含 17169 个样本,来自 279 个不同的 BPs,数据集中非敏感性样本占比 67.6%,存在类别不平衡问题。数据集中的图大多较小,拓扑特征符合典型生物网络特征。同时,该数据集涵盖的蛋白质和相互作用在 BioGRID 中占比较小,但多数蛋白质存在于多个 BPs 中。
- 模型性能评估:研究人员在三个不同的用例(UC1:未知输入 / 输出对;UC2:未知蛋白质;UC3:未知子图)下评估模型性能。结果显示,在 UC1 中,DGN 模型结合图结构和蛋白质嵌入表现最佳;UC2 中,添加蛋白质嵌入的 DGN 模型能更好地泛化;UC3 中,DGN 模型相比不利用图结构的模型,在泛化到未知拓扑方面表现更优 。这表明 PPIN 拓扑结构是推断敏感性的重要信号,添加蛋白质嵌入可提升模型性能。此外,使用单热编码作为蛋白质标识符的实验表明,模型主要受益于子图拓扑结构 。
- 误差分析:通过对误分类样本的分析发现,预测准确性与聚类系数(CC)有关,CC 适中到较高时预测更准确;输入 - 输出距离和图大小也与模型性能相关,距离增加、图过小或过大都会使性能下降 。
- 案例研究与应用场景:研究人员以 2 型糖尿病(T2D)为例进行案例研究,仅基于网络拓扑结构预测胰岛素(INS)和胰高血糖素(GCG)对候选调节因子的敏感性。结果显示,BACH2 在调节胰岛素和胰高血糖素方面可能具有重要作用,这表明该研究方法能仅基于网络结构推断相关相互作用 。该方法在药物靶点识别、药物再利用和个性化医学等领域也具有潜在应用价值。
在结论与讨论部分,研究人员构建的基于 DGN 的框架,能够通过 BP 层面的信息推断 PPIN 层面的敏感性,并创建了 DyBP 和 DyPPIN 两个公开数据集 。不过,该模型在预测 PPIN 中距离较远的蛋白质对以及对完全未知的 PPIN 子图的泛化能力方面还有提升空间。未来研究可拓展到分析其他参数的敏感性、预测其他动态特性、应用于其他生物网络,以及添加复杂节点和边特征以编码更多信息等方向。这项研究为理解蛋白质相互作用的动态特性提供了新视角,为药物设计、疾病研究和个性化医疗等领域开辟了新途径,有望推动生命科学和健康医学领域的进一步发展。