综述:位置蛋白质组学中的数据处理与分析
《PROTEOMICS》:Data Processing and Analysis in Positional Proteomics
【字体:
大
中
小
】
时间:2025年11月04日
来源:PROTEOMICS 3.9
编辑推荐:
这篇综述系统阐述了位置蛋白质组学(Positional Proteomics)这一前沿领域的数据处理与分析策略。文章重点探讨了如何通过特异性富集蛋白质N/C末端肽段,利用质谱技术(MS)实现在全基因组范围内精确识别和定量蛋白酶切割位点。作者详细比较了不同末端组学(Terminomics)工作流程的优劣,强调了数据标准化过程中必须考虑蛋白酶丰度、底物可及性等关键因素,并介绍了如何整合结构生物学数据(如AlphaFold预测模型)和通路分析来验证生物学意义。该综述为研究蛋白酶在疾病机制中的作用提供了重要方法学指导。
1 引言
蛋白质组学已成为生物医学研究不可或缺的工具,特别是基于质谱(MS)的自下而上分析技术。随着样品制备、仪器和软件的快速发展,蛋白质组学分析在通量、深度和定量准确性方面都取得了显著进步。然而,数据分析常常给没有生物信息学背景的研究人员带来挑战,这一挑战在位置蛋白质组学这一专业子领域中尤为突出。
位置蛋白质组学,也称为末端组学(Terminomics),是蛋白质组学中一个需要特殊考量的专业分支。它主要用于以定量方式研究蛋白质末端及其翻译后修饰(PTM),因此在降解组学(Degradomics)研究中具有重要价值。蛋白酶通过不可逆地切割肽键,在调节蛋白质功能、信号转导和疾病发展中发挥关键作用。据哺乳动物降解组数据库统计,人类拥有约589个推定蛋白酶成员,其活性失调与癌症、神经退行性疾病和炎症性疾病等多种病理状况密切相关。
尽管已有大量关于标准自下而上蛋白质组学数据分析的综述,但位置蛋白质组学实验的分析需要特定的调整。本文重点关注位置蛋白质组学数据分析细节背后的概念和原理,这些要素通常对该领域的新手来说并不明显。
2 位置蛋白质组学中的实验考量
2.1 实验设计
任何成功的数据分析都取决于原始数据的质量,因此必须对实验研究设计进行彻底考虑。位置蛋白质组学的样品制备方法通常依赖于质谱分析前对蛋白质末端的富集。由于羧基反应性较低以及胰蛋白酶消化后肽段电荷状态较低会影响MS分析中的电离效率,C末端组学面临额外挑战,因此研究重点通常放在N末端。
成功的实验设计需要适当的对照,例如比较蛋白酶处理样品与未处理对照,使用蛋白酶敲除/敲低或过表达系统,或收集不同疾病进展阶段的临床样本。生物学重复也至关重要,对于探索性研究,建议至少三个重复,如果可能的话五个或更多。还需要考虑批次方差,并尽可能随机分配样品。
2.2 样品制备
目前已开发出多种用于全基因组分析蛋白质末端的工作流程,大多数依赖于专门的富集步骤和数据分析。负向富集末端组学工作流程(如N-TAILS、HUNTER、COFRADIC)首先使用同位素标签(如TMT)或二甲基化阻断蛋白质的初级胺(N末端α-胺和赖氨酸ε-胺),然后进行胰蛋白酶消化,最后通过各种方法(如高分子量聚合物结合、疏水标记或顺序分级分离)去除新生成的胰蛋白酶肽段,从而富集末端肽段。
正向富集方法,如基于Subtiligase的N末端组学或CHOPS/CHOPPER策略,则使用生物素化试剂特异性标记N末端,然后通过亲和纯化进行富集。这些方法虽然不能捕获内源性修饰的末端,但在细胞培养系统中可以用于研究定位特异性蛋白水解。
富集前后的样品(PO和NPO)可根据样品制备方法和实验目标,通过数据依赖性采集(DDA)、数据非依赖性采集(DIA)或靶向方法进行分析。二甲基化标记的样品通常使用DIA,以减少运行间的缺失值,提高灵敏度和定量准确性;而多重标记的样品则使用DDA,虽然可能引入更多缺失值,但所需的质谱分析时间更少。
3 位置蛋白质组学数据的处理
3.1 原始数据处理
采集原始数据后,需要使用蛋白质组学专用软件(如Proteome Discoverer、MaxQuant、FragPipe、Spectronaut、DIA-NN)对收集的MS谱图进行肽段存在和定量的搜索。由于肽段在消化前被同位素标签或二甲基化阻断,赖氨酸被封闭,因此尽管使用胰蛋白酶,实际的切割特异性应为ArgC(仅精氨酸后切割)。蛋白酶特异性应设置为半特异性(Semi-specific),以识别具有替代N或C末端的蛋白酶生成肽段。
在定量实验中,还需要考虑定量下限和信噪比(S/N)阈值,特别是在使用样品多重标记时,因为新末端可能仅在少数条件下存在,其平均肽段S/N会被稀释,可能导致无法定量。
3.2 数据标准化
在位置蛋白质组学中,不同条件之间通常预期存在差异性的蛋白水解活性,这会改变末端的数量和丰度,因此不能假设末端富集PO组分中的肽段强度分布是相等的。标准化时,通常基于相应NPO样品中胰蛋白酶肽段的中位强度来调整PO和NPO的强度。如果富集效率高(>90%),搜索软件可以通过将PO和NPO作为组分进行搜索,并基于更稳定的胰蛋白酶肽段强度分布进行标准化。如果富集效率低,则最好分开搜索PO和NPO,并基于相应NPO样品中胰蛋白酶肽段的中位强度手动调整PO强度。
为了正确理解切割事件的生物学意义,必须考虑蛋白水解发生变化的原因。观察到的差异切割事件可能是多种因素的结果,包括蛋白酶丰度、蛋白酶活性、底物丰度以及蛋白酶网络中的间接效应。因此,在数据分析后期,应使用蛋白质水平数据根据底物蛋白的丰度对切割事件进行标准化,如果已知负责切割的蛋白酶及其丰度,也可将切割丰度标准化为蛋白酶丰度。
3.3 数据填补与统计分析
在高度复杂的样品或多批次DDA实验中,缺失值可能是一个显著问题。对于DIA数据集,由于所有肽段理论上都应被选择进行MS2扫描,缺失值通常不是随机缺失,而是由于肽段强度低于检测或定量限,因此可以使用低丰度重采样或单一值替换等方法进行填补。对于DDA数据,缺失值可能随机或非随机缺失,填补更具挑战性,但有时是必要的。
质谱鉴定的肽段数据通常呈对数正态分布,定量值在进行统计分析(如ANOVA、t检验)前通常进行对数转换。如果数据不满足正态分布或方差齐性假设,可以使用非参数检验(如Mann-Whitney U检验)。由于需要进行多次统计检验,所得的p值通常需要进行多重检验校正(如Benjamini-Hochberg FDR校正),以将错误发现率(FDR)控制在预定阈值(通常为5%)以下。
4 位置蛋白质组学数据的分析
4.1 质量控制措施
彻底的数据质量评估对于确保正确解释结果至关重要。在使用修饰蛋白质末端的工作流程中,可以通过引入的修饰来识别真正的内源性末端。通常,使用同位素标记或二甲基化时,标记效率应>95%,末端富集效率应>90%,PO中胰蛋白酶肽段应<10%。可以通过在原始数据处理中将给定修饰添加为可变修饰,并计算非末端标记事件的比例来评估标记效率。富集效率可以通过单独搜索PO样品,并计算存在的胰蛋白酶肽段的百分比来估算。
4.2 质量控制的可视化
数据质量评估的第一步是检查代表性PO和NPO样品的色谱图。NPO的色谱图应显示梯度上均匀的分布。总离子流图(TIC)和基峰强度图(BPI)可以揭示聚合物污染、上样量错误、电离不足或样品制备错误等问题。
为了验证标准化程序,可以绘制标准化前后强度分布的箱线图,标准化后的强度分布应对齐。还可以绘制条件间和肽段折叠变化分布的变异系数(CV)图,良好的数据集CV应呈正态分布,中位数约为10%–15%。主成分分析(PCA)和均匀流形近似与投影(UMAP)等降维算法常用于发现数据中由技术特征(如批次)引起的非期望聚类模式。相关性图也有助于识别条件内的重现性。
4.3 蛋白质和肽段水平信息的注释
在基本数据质量评估之后,需要对末端进行注释以帮助后续分析识别模式。最基本的注释是根据末端标记的存在将肽段分类为潜在切割事件。外部数据库(如UniProt、MEROPS、TopFind、HPA、AlphaFold DB)可以进一步提供关于肽段或切割可能涉及的过程的信息。UniProt可提供蛋白质水平信息,如功能、结
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号