PIPI-C:基于混合整数线性规划模型,无偏鉴定多修饰肽段以揭示癌症相关翻译后修饰热点

《Molecular & Cellular Proteomics》:PIPI-C: A combinatorial optimization framework for identifying post-translational modification hot-spots in mass spectrometry data

【字体: 时间:2025年12月24日 来源:Molecular & Cellular Proteomics 5.5

编辑推荐:

  本研究针对质谱数据中多修饰肽段鉴定这一NP难组合优化问题,开发了PIPI-C(PTM-Invariant Peptide Identification with a Combinatorial model)搜索引擎。该工具通过构建混合整数线性规划(MILP)模型,克服了现有方法在处理高阶PTM组合时的局限性。研究团队在多种数据集上验证了PIPI-C的优越性能,并将其应用于超过7200万张人类癌症(LSCC、COAD、GBM)质谱图,成功揭示了显著上调的PTM组合,为解码复杂PTM模式提供了强大的数学框架,并增进了对疾病中PTM驱动细胞过程的理解。

  
在生命科学领域,蛋白质是生命活动的执行者,而蛋白质的功能不仅由其氨基酸序列决定,更受到翻译后修饰(PTM)的精细调控。这些修饰如同给蛋白质贴上了“标签”,可以改变其活性、定位和相互作用,从而调控几乎所有的细胞过程。然而,蛋白质的修饰并非孤立存在,它们之间存在着复杂的“对话”,即PTM crosstalk。当多个PTM在蛋白质的相邻区域密集出现时,便形成了所谓的“PTM热点”,这些热点是PTM crosstalk发生的关键区域,与多种人类疾病,特别是癌症的发生发展密切相关。
尽管PTM crosstalk的重要性日益凸显,但要从海量的质谱数据中准确鉴定出携带多个PTM的肽段,却是一个巨大的挑战。这本质上是一个组合优化问题,其计算复杂度随着PTM数量的增加呈指数级增长,属于NP难问题。现有的质谱数据库搜索方法,如Mascot和Comet,通常只能处理预先指定的、数量有限的几种PTM,无法应对自然界中超过200种已知PTM的复杂组合。而一些开放搜索方法虽然有所改进,但在处理高阶PTM组合时,其性能往往依赖于从谱图中提取的“标签”的准确性,或者受限于计算复杂度,难以同时定位多个PTM。
为了攻克这一难题,来自香港科技大学的研究团队开发了一款名为PIPI-C(PTM-Invariant Peptide Identification with a Combinatorial model)的新型搜索引擎。该工具的核心创新在于,它将多修饰肽段的鉴定问题构建为一个混合整数线性规划(MILP)模型。通过这一数学框架,PIPI-C能够同时确定肽段的序列和PTM模式,从而找到与实验质谱图最匹配的理论肽段,为解码复杂的PTM模式提供了一个强大且理论上保证最优解的解决方案。
关键技术方法
本研究主要采用了以下关键技术方法:
  1. 1.
    质谱数据来源:研究使用了多种来源的质谱数据,包括模拟数据集、合成数据集、大豆数据集、矮牵牛数据集以及人类癌症队列数据,其中人类癌症数据包括来自CPTAC的肺鳞状细胞癌(LSCC)、结直肠腺癌(COAD)和胶质母细胞瘤(GBM)队列。
  2. 2.
    模糊双向匹配:利用FM-index(全文索引)技术,结合模糊和双向匹配策略,从蛋白质数据库中高效地检索候选肽段,提高了候选肽段检索的灵敏度和准确性。
  3. 3.
    混合整数线性规划(MILP)模型:构建了一个新颖的MILP模型,将肽段序列和PTM模式的鉴定问题转化为一个数学优化问题,旨在最大化理论谱图与实验谱图之间的匹配度,并利用Gurobi等求解器进行求解。
  4. 4.
    生物信息学分析:对鉴定结果进行了全面的生物信息学分析,包括差异表达分析、基序(Motif)分析、基因本体(GO)富集分析以及蛋白质-蛋白质相互作用(PPI)网络分析,以揭示PTM在癌症中的生物学意义。
研究结果
1. 性能验证:PIPI-C在多种数据集上表现优异
为了评估PIPI-C的性能,研究团队在模拟数据集、合成数据集、大豆数据集和矮牵牛数据集上,将其与Open-pFind和MODplus等现有领先工具进行了比较。
  • 模拟数据集验证:在信噪比(SNR)为2.023的模拟数据集中,PIPI-C正确鉴定了超过99%的肽段骨架,而Open-pFind和MODplus分别为42%和92%。在PTM表征方面,PIPI-C的精度达到85%,显著高于Open-pFind(65%)和MODplus(76%)。更重要的是,PIPI-C在处理携带两个以上PTM的肽段时表现出明显优势,而其他工具的性能则随着PTM数量的增加而急剧下降。
  • 合成数据集验证:在包含21个合成数据集的测试中,PIPI-C在肽段骨架和PTM鉴定的灵敏度上均优于竞争对手。例如,在包含Phospho@Y(酪氨酸磷酸化)的数据集中,PIPI-C鉴定的PSM数量分别比Open-pFind和MODplus高出7%和15%。
  • 大豆数据集验证:在大豆数据集上,PIPI-C鉴定出的完全二甲基化标记的肽段数量分别比Open-pFind和MODplus高出75%和17%,且错误率控制在较低水平。
  • 矮牵牛数据集验证:在矮牵牛数据集上,PIPI-C成功鉴定出大量PTM组合,包括一个三PTM组合(GG@K、Phe→Cys@F和Unknown: 248@N-term)。通过交叉验证发现,许多PIPI-C鉴定出的PTM组合,在Open-pFind和MODplus中无法被检测到,除非将这些PTM预先指定为可变修饰进行搜索,这证明了PIPI-C在无偏鉴定PTM组合方面的强大能力。
2. 在肺鳞状细胞癌(LSCC)中的应用
研究团队将PIPI-C应用于一个包含超过2.21亿张MS2谱图的LSCC数据集(LSCC1)。在肽段水平FDR<0.01的严格标准下,PIPI-C共鉴定了超过106万个PSM,其中超过50%携带了除TMT标签外的PTM。
  • 差异表达分析:通过定量分析,研究发现了860个显著上调的独特PTM位点模式(UPSP),其中约50%的UPSP携带至少两个PTM,表明在LSCC中存在广泛的潜在PTM crosstalk。
  • 基序分析:对上调的磷酸化位点进行基序分析,发现了p[S/T]PK、p[S/T]P和[S]xp[S/T]等显著富集的基序。
  • GO富集分析:GO分析揭示了与肺功能和呼吸系统相关的生物学过程、细胞组分和分子功能的显著上调,如血红蛋白α结合、蛋白质结合、二氧化碳转运、氧转运等。其中,细胞外囊泡(extracellular vesicle)的富集具有极高的显著性。
  • PPI网络分析:对上调UPSP对应的蛋白质进行PPI网络分析,发现了两个显著的相互作用组,其中许多蛋白质已被报道与肺癌相关,如ZYX、ACTG1和MYH9。
3. 在结直肠腺癌(COAD)中的应用
研究团队还将PIPI-C应用于一个包含超过9500万张MS2谱图的COAD数据集(COAD1)。
  • 鉴定结果:PIPI-C共鉴定了超过528万个PSM,其中约44%携带了PTM。定量分析发现了300个显著上调的UPSP,其中约26%携带至少两个PTM。
  • 基序分析:对上调的脱酰胺化位点(Deamidation@N)进行基序分析,发现了Gd[N]、d[N]xxA和d[N]xE等显著富集的基序。
  • GO富集分析:GO分析揭示了31个显著上调的生物学过程、74个细胞组分和21个分子功能,如I型胶原三聚体、IgG免疫球蛋白复合物、突触后细胞骨架组织和NuA4组蛋白乙酰转移酶复合物等,其中许多与结肠癌的发生发展相关。
4. 在胶质母细胞瘤(GBM)中的应用
为了验证PIPI-C在非标记数据上的性能,研究团队将其应用于两个独立的GBM队列(GBM1和GBM2)。结果显示,PIPI-C在两个队列中分别鉴定了超过214万和109万个PSM,其中分别有约54%和73%携带PTM。两个队列的UPSP交集分别为23%和19%,证明了PIPI-C在不同来源数据上的稳健性。
结论与讨论
本研究开发了PIPI-C,一个基于混合整数线性规划(MILP)模型的组合优化框架,用于从质谱数据中无偏地鉴定携带多个PTM的肽段。通过将复杂的肽段鉴定问题构建为MILP模型,PIPI-C能够同时确定肽段序列和PTM模式,从而找到最优解。
研究通过多种数据集的验证,证明了PIPI-C在肽段骨架鉴定和PTM表征方面均优于现有的领先工具,特别是在处理携带多个PTM的肽段时表现出显著优势。更重要的是,PIPI-C能够发现现有方法难以检测到的PTM组合,为研究PTM crosstalk提供了强大的工具。
将PIPI-C应用于人类癌症(LSCC、COAD、GBM)的大规模质谱数据,研究揭示了大量显著上调的PTM组合,其中许多组合携带两个或更多PTM,表明PTM crosstalk在癌症中可能扮演着重要角色。这些发现为理解癌症的分子机制提供了新的线索,并可能为未来的诊断和治疗策略提供潜在的靶点。
总之,PIPI-C为解码复杂的PTM模式提供了一个强大、稳健且理论上保证最优解的数学框架,极大地推动了PTM crosstalk研究的发展,增进了我们对疾病中PTM驱动细胞过程的理解。该研究已发表在《Molecular & Cellular Proteomics》期刊上。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号