深度学习模型揭示翻译后修饰调控液液相分离的分子机制

《Communications Chemistry》:Deep learning model of post-translational modification regulating liquid-liquid phase separation

【字体: 时间:2025年12月09日 来源:Communications Chemistry 6.2

编辑推荐:

  本研究针对蛋白质翻译后修饰(PTM)调控液液相分离(LLPS)缺乏系统数据库和预测工具的现状,开发了首个实验验证的PTM调控LLPS专用数据库PTMPhaSe(含733个非冗余PTM位点)及图神经网络模型PhosLLPS(AUC达0.9116)。该成果通过整合蛋白质语言模型ESM-2与Transformer架构,实现了人类蛋白质组尺度功能性磷酸化位点的精准预测,为揭示LLPS相关疾病(如神经退行性疾病)的分子机制提供了关键资源。

  
在细胞这个微观宇宙中,生物分子通过神奇的"液液相分离"(Liquid-Liquid Phase Separation, LLPS)过程自发形成无膜细胞器,如同微小的液滴在细胞内精准定位。这些动态结构参与基因表达、应激反应等关键生命活动,其失调更与阿尔茨海默病、肌萎缩侧索硬化等重大疾病密切相关。然而,调控LLPS的核心开关——蛋白质翻译后修饰(Post-Translational Modifications, PTMs)——却始终缺乏系统性的研究工具。
现有LLPS数据库如PhaSepDB、DrLLPS等虽积累了丰富数据,但存在PTM调控信息碎片化、缺乏位点特异性功能注释等局限。更关键的是,传统实验方法耗时费力,而现有预测工具FuncPhos-SEQ等又无法精准识别LLPS相关的功能性磷酸化位点。这种知识空白严重阻碍了人们对LLPS分子机制的深入理解。
为突破这一瓶颈,上海交通大学陈海峰团队在《Communications Chemistry》发表创新性研究,构建了首个专注于PTM调控LLPS的数据库PTMPhaSe,并开发了基于图神经网络(Graph Neural Network, GNN)的预测模型PhosLLPS。该工作通过多维度数据整合与深度学习算法优化,实现了从"数据挖掘"到"功能预测"的全链条突破。
关键技术方法
研究团队通过系统检索8个PTM数据库(UniProt、PhosphoSitePlus等)和5个LLPS数据库(PhaSepDB、DrLLPS等)构建核心数据集,采用IUPred2a预测无序区域、SMART注释功能域。PhosLLPS模型融合ESM-2蛋白质语言模型嵌入特征与TransformerConv图神经网络架构,通过15残基窗口优化和五折交叉验证(参数:batch size=128, 学习率1.4e-5)实现高性能预测。
数据库内容与特征分析
PTMPhaSe收录了14个物种164种蛋白质的733个非冗余PTM位点,涵盖磷酸化、甲基化、SUMO化等14种修饰类型。统计分析显示,丝氨酸(S)、赖氨酸(K)和精氨酸(R)是最主要的修饰位点,分别占比47.89%、17.60%和17.19%。值得注意的是,近40%的PTM位点位于低复杂度域(Low Complexity Domain, LCD),82.69%分布于内在无序区域(Intrinsically Disordered Regions, IDRs),提示PTMs可能通过调控LLPS相关结构域发挥功能。
疾病关联分析发现,LLPS蛋白质主要参与核酸结合和转录调控功能,且与神经退行性疾病(如ALS、AD、FTD)和遗传疾病(如脆性X综合征)显著相关。调控方向统计揭示:磷酸化、甲基化倾向于抑制LLPS,而ADP-核糖基化主要促进LLPS,SUMO化对赖氨酸的修饰则呈现明显的促进作用。
PhosLLPS模型性能评估
通过窗口尺寸优化实验发现15残基窗口 achieves最佳性能(AUROC=0.9667)。在四种蛋白质语言模型对比中,ESM2嵌入特征表现最优(ACC=0.9057, AUPR=0.9688)。最终PhosLLPS模型在验证集上AUROC达0.9116,显著优于GATConv(0.8848)、GCNConv(0.8900)等基线模型。消融实验证实图神经网络模块贡献关键作用,移除GNN后AUROC下降0.0592。与现有方法FuncPhos-SEQ(AUROC≈0.508)相比,PhosLLPS展现出对LLPS相关磷酸化位点的特异性识别优势。
人类蛋白质组尺度预测与应用
对18,308个人类蛋白质的分析显示,功能性磷酸化位点(0.72-0.96)与非功能性位点(0.76-0.98)的预测概率分布存在显著区分。pLDDT(predicted Local Distance Difference Test)分析表明功能性位点更倾向于位于低置信度区域(pLDDT<50),与内在无序区域的特征相符。疾病富集分析通过Fisher精确检验证实功能性磷酸化位点与疾病相关位点显著关联(p<0.05),为LLPS相关疾病的靶向治疗提供新线索。
案例验证与资源平台建设
以RNA结合蛋白FUS为例,数据库收录其45个实验验证的PTM调控位点,包括LC结构域的23个位点和RRM结构域的K315/K316位点。谷胱甘肽化修饰(C447)可增强LLPS,而PAD介导的瓜氨酸化(R514/R518)则通过直接影响LLPS区域(1-526残基)抑制相分离。对TDP-43的预测中,PhosLLPS成功识别15个已知功能性位点(如S48、S332等),并发现29个潜在调控位点,其中S92、S273等位点与乳腺癌、宫颈癌等疾病相关。
研究结论与展望
该研究通过构建PTMPhaSe数据库和PhosLLPS预测模型,首次系统揭示了PTM调控LLPS的分子规律。研究发现92%的PTM位点直接位于LLPS区域,主要通过影响多价弱相互作用调控相分离。深度学习模型的卓越性能证明图神经网络在生物序列特征提取中的优势,为后续研究提供新范式。
未来研究方向包括:整合RNA修饰(如m6A)与PTM的交叉调控机制,开发PTM特异性的LLPS模拟模型(如Martini力场、粗粒化模型),以及通过分子动力学(Molecular Dynamics, MD)模拟和马尔可夫状态模型(Markov State Model, MSM)解析原子水平调控机制。这些资源将推动LLPS相关疾病(如神经退行性疾病、癌症)的诊断标志物发现和靶向治疗开发。
该成果通过搭建"数据库-预测模型-网络平台"三位一体的研究体系,为领域内研究者提供了从数据查询到功能预测的完整解决方案,显著提升了对LLPS分子机制的理解深度,具有重要的科学意义和应用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号