编辑推荐:
为解决现有 AlphaFold-Multimer(AF-M)置信度指标无法有效区分蛋白质相互作用(PPI)真假预测的问题,哈佛医学院的研究人员开展了相关研究。他们训练了结构预测和组学信息分类器(SPOC),构建了 Predictomes 数据库。该研究为解释大规模 AF-M 筛选结果提供了框架,有助于推动全蛋白质组结构互作组的研究。
在生命的微观世界里,蛋白质就像一个个忙碌的 “小工匠”,它们之间的相互作用(Protein-Protein Interactions,PPIs)支撑着几乎所有的生物过程。想象一下,细胞内的各种活动,从 DNA 复制到信号传递,都离不开这些 “小工匠” 们的紧密协作。然而,目前科学家们对这些相互作用的了解还十分有限。据估计,人类基因组编码的约 20,000 种蛋白质理论上可形成多达 2 亿种二元组合,但实际上,只有约 150 万种组合代表功能性 PPIs,其中仅有 50,000 种(3%)被识别出来,结构得到解析的更是只有 9,000 种(0.5%)。这就好比在一座巨大的城市中,我们只认识极少数的居民,对他们之间的关系更是知之甚少。
为了填补这一知识空白,研究人员一直在努力探索。传统的实验方法,如酵母双杂交试验、共免疫沉淀等,虽然帮助我们发现了许多 PPIs,但这些方法既费力又容易产生大量的假阳性和假阴性结果。而计算方法,如同源建模、刚体对接等,也存在各自的局限性,至今仍未生成一个全面的结构互作组。
随着深度学习技术的发展,AlphaFold-Multimer(AF-M)的出现为 PPIs 研究带来了新的希望。AF-M 能够预测多链复合物的结构,有助于揭示 PPIs。然而,标准的 AF-M 置信度指标却无法可靠地从大量的假阳性预测中区分出真正相关的 PPIs。这就像在一堆真假难辨的宝石中,难以挑选出真正有价值的宝石。
在这样的背景下,哈佛医学院(Harvard Medical School)的 Ernst W. Schmid 和 Johannes C. Walter 决心攻克这一难题。他们开展了一项深入的研究,旨在开发一种更有效的方法来评估 AF-M 预测的 PPIs,并构建一个高质量的蛋白质相互作用数据库。
研究人员首先对 AF-M 识别真正 PPIs 的能力进行了系统评估,发现现有的标准置信度指标,如 ipTM、pDockQ 和 avg_models 等,在大规模筛选中表现不佳。为了改进这一状况,他们利用机器学习技术,在精心整理的数据集上训练了一个名为结构预测和组学信息分类器(Structure Prediction and Omics-Informed Classifier,SPOC)的算法。这个分类器综合考虑了蛋白质对的结构和生物学特征,能够更准确地评估 AF-M 预测的可靠性。
随后,研究人员使用 SPOC 对近 300 种人类基因组维护(Genome Maintenance,GM)蛋白之间的所有可能相互作用进行了筛选,生成了约 40,000 个预测结果。这些结果被整合到一个名为 Predictomes 的数据库中,研究人员还创建了一个用户友好的网站
predictomes.org,方便其他科研人员浏览和下载这些预测结果,并使用 SPOC 对自己的预测进行评分。
在研究过程中,研究人员用到了多种关键技术方法。在模型训练方面,利用随机森林(Random Forest)机器学习模型,通过结合网格搜索和迭代特征修剪,优化模型性能;数据处理上,对多种数据源进行整合和处理,包括从大规模交联质谱(XLMS)数据集中挖掘 PPIs、收集来自癌症依赖图谱(DEPMAP)的共依赖数据、基因共表达数据等;结构预测则借助 AlphaFold-Multimer 预测蛋白质复合物结构,并通过自定义的多步骤筛选标准确定有效界面接触。
下面来具体看看研究的结果:
- 现有置信度指标的不足:通过 “排名实验” 评估多种置信度指标,发现现有指标在大规模筛选中难以准确识别真正的 PPIs,即使表现最好的 avg_models 指标,在全蛋白质组筛选中也会将阳性对与大量随机相互作用混淆。
- SPOC 的优势:与现有指标相比,SPOC 在区分 AF-M 的阳性和阴性预测方面表现更优。在 5% 的假发现率(FDR)下,SPOC 的召回率最高,并且在模拟全蛋白质组筛选的条件下,其性能显著优于其他指标。此外,SPOC 还能在实际的排名实验中,将已知的蛋白质相互作用对排在更高的位置,有助于发现新的 PPIs。
- GM 蛋白相互作用的筛选:运用 SPOC 对 GM 蛋白进行筛选,确定了 1,151 个高置信度的相互作用对。与 STRING 数据库相比,这些相互作用对中有 54.3% 的 STRING 得分也较高,表明 SPOC 能够识别出许多具有潜在生物学意义的相互作用。同时,SPOC 还发现了一些之前未被报道的相互作用,为 GM 领域的研究提供了新的线索。
- Predictomes 数据库和网站的功能:Predictomes 数据库和网站为研究人员提供了一个便捷的平台,可用于浏览、分析和下载 AF-M 预测的 GM 蛋白相互作用数据。网站还提供了丰富的信息,包括蛋白质结构查看器、UniProt 条目信息、进化保守性分析等,方便研究人员进行深入研究。
- 基于数据库的假设生成:通过对 Predictomes 数据库的分析,研究人员提出了两个关于复制性 DNA 聚合酶的假设。这些假设基于 AF-M 的高置信度预测,为进一步研究 DNA 复制机制提供了有价值的线索。
研究结论表明,SPOC 是一种有效的工具,能够帮助研究人员更好地解释大规模 AF-M 筛选结果,识别真正的蛋白质相互作用。Predictomes 数据库和网站则为科研人员提供了一个宝贵的资源,有助于推动基因组维护领域的研究,促进新的生物学假设的产生。这项研究为全蛋白质组结构互作组的最终发展奠定了基础,有望开启生物学研究的新篇章,让我们更深入地了解生命微观世界中蛋白质 “小工匠” 们的协作奥秘。不过研究也存在一定的局限性,例如当前分析忽略了 AF-M 未产生界面预测的蛋白对,还需要大规模实验验证预测对,且 SPOC 目前只能用于评分人类蛋白对。但这并不影响其重要意义,未来研究人员可在此基础上进一步探索,不断完善对蛋白质相互作用的认识。