基于AlphaFold2预测结构信息与Transformer架构的蛋白质翻译后修饰位点精准预测新方法SAPP
【字体:
大
中
小
】
时间:2025年10月09日
来源:Computers in Biology and Medicine 6.3
编辑推荐:
本研究针对传统PTM预测方法过度依赖序列数据而忽视结构信息的问题,开发了整合AlphaFold2预测结构与序列信息的Transformer框架SAPP。该模型通过自注意力与交叉注意力机制有效捕捉序列与结构特征的交互作用,在磷酸化位点预测中AUC达0.9364,显著优于现有序列模型,并成功拓展至激酶特异性磷酸化及其他PTM类型预测,为结构感知的PTM预测提供了新范式。
在生命活动的精密调控网络中,蛋白质翻译后修饰(Post-translational modifications, PTMs)犹如精准的分子开关,通过共价修饰机制调控蛋白质功能、定位及相互作用。其中磷酸化作为最关键的PTM类型之一,在信号转导、细胞增殖分化等核心生物学过程中发挥重要作用。尽管高通量质谱技术已鉴定大量PTM位点,实验方法仍存在成本高、通量限制等问题,这使得计算预测方法成为不可或缺的补充手段。
传统计算方法主要依赖于氨基酸序列信息,利用卷积神经网络(CNNs)、Transformer等深度学习架构开发了DeepPhos、MusiteDeep、DeepPSP等预测工具。然而,这些模型普遍忽视了一个关键因素:蛋白质的三维结构环境。近年研究发现,多种PTM事件与蛋白质结构背景密切相关,磷酸化尤其倾向于发生在固有无序区域(IDRs)和溶剂可及表面,结构灵活性在决定位点可及性和功能相关性中起关键作用。尽管已知结构信息的重要性,但由于实验结构数据有限且结构动态复杂,将结构信息有效整合到预测模型中一直存在挑战。
AlphaFold2的出现彻底改变了这一局面。这项革命性技术能够以接近实验精度预测蛋白质结构,AlphaFold数据库更提供了超过2.14亿个蛋白质的预测结构,为大规模整合结构信息提供了前所未有的机会。
在此背景下,研究人员开发了SAPP(Structure-Aware PTM Prediction)框架,这是首个将AlphaFold2预测的结构特征与序列信息相结合的PTM预测模型。该研究发表在《Computers in Biology and Medicine》期刊,通过系统评估多种结构特征、设计新型模型架构并开展广泛验证,证明了结构信息对提升PTM预测准确性的重要价值。
研究采用的关键技术方法包括:从UniProtKB/Swiss-Prot数据库(2023.05版)提取磷酸化位点数据并划分训练集/验证集/测试集(6:2:2);系统评估五种结构特征(IDR注释、IUPRED3预测无序分数、半球暴露HSE、相对溶剂可及性RSA和预测局部距离差异测试pLDDT)的判别能力;基于Transformer架构构建整合自注意力和交叉注意力机制的深度学习模型;采用Bootstrap与10折交叉验证解决类别不平衡问题;通过TM-score评估AlphaFold2预测结构与实验结构的相似性;使用分类器微调策略处理激酶特异性磷酸化预测,全模型微调策略处理其他PTM类型预测。
研究人员首先评估了五种结构特征区分磷酸化与非磷酸化位点的能力。通过计算对数几率比发现,所有结构特征都显示出较高的判别能力,其中基于AlphaFold2预测结构计算的相对溶剂可及性(RSA)表现最佳。生物学机制上,发生PTM的氨基酸侧链通常需要位于蛋白质表面以便与修饰酶相互作用,而埋在蛋白质结构核心的残基由于空间位阻通常不易被修饰。虽然pLDDT反映了AlphaFold2结构的预测置信度且与IDR区域相关,但研究表明它不能完全捕获IDR的全景,也不能直接反映表面可及性。与NetSurfP-3.0预测的RSA值相比,AlphaFold2衍生的RSA值更接近实验测得的实际RSA值,因此被选为SAPP模型的主要结构特征。
SAPP模型采用Transformer编码器架构,包含两种注意力机制:自注意力用于捕获氨基酸序列内部的上下文依赖关系,交叉注意力用于整合RSA特征与序列信息。针对每个磷酸化位点,提取中心残基两侧±25个残基的51肽序列窗口作为输入,相应的序列和RSA嵌入通过两个具有多头注意力的编码器层处理,最后通过分类层输出预测结果。
在独立测试集上的评估表明,SAPPphos(针对Ser/Thr磷酸化的SAPP模型)的AUC达到0.9364,显著优于DeepPhos、MusiteDeep和DeepPSP等序列模型。在90%和95%特异性阈值下,SAPPphos在敏感性、准确性、马修斯相关系数、精确度和F1分数等五个指标上均一致优于对比模型。
为验证性能提升确实源于结构信息的整合,研究人员比较了包含与不包含RSA结构数据时的模型性能。分析显示,加入结构信息后正负数据集的性能均显著提升(Wilcoxon检验p值:阴性5.8e-11,阳性<2.2e-16)。重要的是,阳性磷酸化位点显示出更明显的预测准确性改善,强调磷酸化位点强烈依赖于其结构背景。
研究还发现,使用NetSurfP-3.0预测的RSA值(仅基于序列)会导致性能大幅下降,且与不使用任何RSA特征的模型无显著差异,表明整合AlphaFold2衍生的RSA值对最大化SAPPphos性能至关重要。
研究人员通过TM-score量化AlphaFold2预测结构与实验解析的自然结构之间的结构相似性,评估了预测性能与蛋白质结构预测质量的相关性。测试数据集包含15,354个蛋白质,其中3,664个具有实验确定的结构,包含4,964个磷酸化位点。最终对299个磷酸化位点进行分析,分为低TM-score组(<0.5,n=83)和高TM-score组(≥0.5,n=216)。
比较发现,与序列方法不同(在高和低TM-score组间无显著差异),SAPPphos模型在高TM-score组表现出显著改善的预测准确性(Wilcoxon检验,p值=0.0038),表明其利用准确结构背景的能力。使用Scop3P数据库的扩展分析也证实,具有较高结构质量的磷酸化位点同样显示出SAPPphos预测概率显著更高(Wilcoxon检验,p值=0.0039),表明蛋白质结构预测模型的持续进步可能进一步提高PTM预测准确性。
为研究结构信息超越已知序列模体的附加价值,研究人员深入分析了四个磷酸化位点,这些位点被SAPPphos独特识别为真阳性,但被三个基准模型(MusiteDeep、DeepPhos和DeepPSP)错误归类为假阴性。
这些位点包括:RFWD3蛋白中已知介导p53稳定的Ser47磷酸化;SIA1A蛋白中由ATM/ATR激酶介导、对DNA损伤响应至关重要的Ser19磷酸化;USP10中ATM依赖性磷酸化促进去泛素化酶易位和稳定的Ser337磷酸化;以及hSSB1蛋白中由ATM激酶介导、调控DNA损伤响应的Thr117磷酸化。
这些磷酸化位点具有共同特征:都是ATM/ATR激酶底物,包含特征性模体(pSQ或pTQ)。ATM/ATR家族激酶在基因组稳定性中起核心作用,特别偏好SQ模体。AlphaFold2预测的蛋白质结构显示这些模体位于具有IDR特征且可能被酶访问的区域。这些结果表明SAPPphos通过整合结构背景,能有效识别知名磷酸化模体(如pS/pTP、pS/pTR和RXXpS/pT)和序列模型经常忽略的特征不明显的模体(如pS/pTQ)。
不同激酶催化磷酸基团添加到特定底物,从而协调多样细胞信号通路。然而,激酶特异性磷酸化数据集通常更小且更稀疏,增加了模型过拟合风险。
为克服激酶特异性数据有限带来的挑战,研究人员应用分类器微调策略,并将其与完全从头训练的模型进行比较。在八个明确特征的激酶家族上的评估表明,对于训练实例少于2000个的激酶(如PKA、CK2和PKC),从头训练或DeepPhos模型显示出相对更好或相当的性能,可能源于在非常小数据集上使用分类器微调时的过拟合。相反,对于具有较大数据集的激酶家族(如CMGC和CAMK),分类器微调显著改善了预测性能。
通过分析每个激酶家族磷酸化位点的RSA分布发现,PKA和PKC家族显示出向更埋藏区域偏移的RSA分布,表明这些激酶靶向的磷酸化位点可能具有与一般磷酸化位点不同的结构偏好(如更频繁埋藏)。这些结构差异可能限制了分类器微调在适应激酶特异性背景时的有效性。
除磷酸化外,许多其他PTM显著多样化蛋白质功能并调控细胞过程。然而,磷酸化以外PTM的已知数据集明显更小,限制了有效训练预测模型的能力。
研究采用全模型微调策略,利用在磷酸化数据上预训练的SAPPphos模型,系统评估其在多样化PTM上的有效性。性能评估表明,全模型微调的SAPP模型在精氨酸甲基化、酪氨酸磷酸化和赖氨酸乙酰化任务上显著优于MusiteDeep。对于其他PTM类型如泛素化和SUMO化,MusiteDeep实现了略高的性能,但与SAPP模型的差异很小。这些发现证实,对在大型磷酸化数据集上训练的结构感知模型进行微调,可改善跨多样化PTM的泛化性能,突出了将结构信息整合到PTM预测任务中的有效性和适应性。
本研究引入了SAPP,一个新颖的PTM位点预测框架,将蛋白质结构信息与传统氨基酸序列特征相结合,在多样化修饰类型上展现出显著优于现有序列基模型的预测性能。结果清晰表明结构背景(特别是相对溶剂可及面积RSA)在准确预测磷酸化位点中的关键作用。
研究还分析了SAPP预测准确性对AlphaFold2预测蛋白质结构质量的依赖性,观察到结构预测质量(TM-score)与模型性能间的明显相关性。随着蛋白质结构预测方法的持续改进,预计结构感知方法的预测准确性将进一步提高。
通过对ATR/ATM激酶底物的具体案例研究,表明结构信息可识别序列模型因有限序列模体表征而未能检测到的磷酸化位点。这些例子强调了结构信息如何补充序列基方法,突出了先前被忽视但对生物功能关键的磷酸化事件。
为评估模型的泛化能力,研究将分析扩展到激酶特异性磷酸化数据集和各种其他PTM类型。对于激酶特异性磷酸化预测,观察到虽然从头训练的模型在较小数据集上最初表现有效,但其性能因过拟合而停滞。相反,基于分类器微调的模型随着数据集规模增加表现出显著性能改善,有效缓解了过拟合问题。
有趣的是,在其他PTM类型上观察到不同结果。尽管泛素化和SUMO化等修饰的数据集规模相对充足,全模型微调模型并未显著优于序列基模型。这种差异可能源于这些PTM与磷酸化之间的基本生化差异。与添加小化学基团的磷酸化不同,泛素化和SUMO化涉及较大多肽(如泛素76个残基或SUMO蛋白)的共价连接。这些不同的生化过程表明,对磷酸化训练的基模型进行微调可能无法最佳捕获与此类PTM相关的复杂性,需要进一步分析定制微调策略。
尽管如此,研究成功改善了多种PTM类型(如精氨酸甲基化、酪氨酸磷酸化和赖氨酸乙酰化)的预测性能。虽然当前评估限于支持深度学习建模的PTM类型子集,但利用磷酸化预训练主干的全模型微调方法在不同PTM类型上展现出竞争性能,表明SAPPphos学习的结构感知注意力机制和表征可泛化超越磷酸化。随着更多PTM类型的高质量注释数据集变得可用,预计该框架的适用性可进一步扩展以支持更广泛的PTM预测。
这些发现强调蛋白质结构信息显著增强PTM预测的准确性和泛化能力。通过对五个人类髓系细胞系磷酸化蛋白质组学分析中实验鉴定磷酸化位点的额外评估,SAPPphos准确预测了这些位点的很大部分,且对先前未见位点表现出强大泛化能力:跨多个细胞系重复鉴定的磷酸化位点被模型以更高置信度预测,支持其生物有效性及对真实世界磷酸化蛋白质组学数据集的适用性。
该研究聚焦于基于单个静态蛋白质结构预测PTM位点的存在。然而在实际细胞环境中,PTM可能受其他修饰相互作用及邻近性的影响。因此,PTM占据率(位点被修饰的相对比例)可能在不同细胞条件、时间点和组织类型间变化。这些考虑强调需要超越二分类模型,向整合修饰频率和占据水平的定量预测框架发展。最后,随着邻近PTM存在、局部结构变化和可及性改变的充分数据变得可用,动态整合这些背景因素可进一步增强PTM模型的预测准确性和生物相关性。SAPP整合三维结构信息相比仅序列或化学计量学方法具有显著优势,因为结构背景与生物功能更直接相关,这表明SAPP可扩展到位点级预测之外,优先处理功能关键PTM,进一步增强其在下游生物解释中的效用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号