生命科学质谱在精准医疗中的应用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

生命科学质谱在精准医疗中的应用 | 第三期

【字体：大中小】 时间：2017年03月17日 来源：Thermofisher

编辑推荐：

　　自从2015年美、中两国陆续在国家战略层面高度推出了“精准医疗计划”后，“精准医疗”四个字一直受到了社会各界的广泛关注!

在上一期的稿件中，小编通过OVA1®这个成功的案例，讨论了biomarker开发的正式框架以及如何实现biomarker从实验室到临床的转化。而这一期的内容则主要包括在biomarker开发的Phase I: Preclinical Exploratory Studies中所需要用到的蛋白质组学技术。

Preclinical Exploratory Studies的总体思路

在这个系列的第一讲中我们提到蛋白质生物标志物的发现策略主要有两种不同的思路。一种是和GWAS类似，通过大队列非靶向蛋白质组建设，去发现一些蛋白质表达量或是修饰状态的改变和疾病状态的相关性。而另一种是更为经典的生物标志物发现策略，即将整个过程分为不同的阶段，随着发现阶段的推进，不断增加样本数量并缩小目标蛋白，最终找到和疾病相关的一个或多个蛋白质生物标志物。

图1. 血浆蛋白质浓度的动态范围

血液始终是我们去寻找疾病标志物的最佳样本之一，但从血浆中去发现biomarker却困难重重。尽管成人血浆蛋白质的浓度相对恒定（65-85mg/mL），但血浆蛋白质的动态范围却非常大，通常横跨10到12个数量级（图1）。而对疾病具有提示意义的标记物通常都是一些组织细胞的分泌蛋白，细胞破碎后的一些溢出蛋白等，这些蛋白质的含量通常都非常低。因此不管采用哪种发现策略，对血浆（或血清）样品进行合理的前处理以及质谱对血浆蛋白质组的鉴定深度都是成功发现biomarker的先决条件。

OVA1®在发现阶段使用了SELDI-MS来寻找差异蛋白质，SELDI-MS虽然分析通量很高，但由于受到蛋白芯片的制约，始终只能覆盖到血浆蛋白质的一小部分，这样我们在发现阶段就会错过太多有意义的信息，因此OVA1®的panel中都是一些丰度相对较高的蛋白质。

大队列非靶向蛋白质组建设依赖于强大的样本以及经费的资源，因此在这里我们主要讨论经典的生物标志物发现策略。经典的发现策略其实也存在着不同的思路，如果在最初的发现阶段我们没有任何的先验知识，那么我们就需要首先进行非靶向的蛋白质组学研究去发现疾病和正常的候选差异蛋白；但如果我们有来自文献或其他实验的先验知识，那么我们可直接采取靶向的蛋白质组学发现策略，通过不断的增加样本数量，缩小候选列表去得到最终的可能的biomarker蛋白。

图2. 非靶向蛋白质组学生物标志物发现思路和技术方法

非靶向的蛋白质组学发现思路

非靶向蛋白质组学手段用于biomarker的发现已有十多年的历史，为了对该过程进行规范，有不少文献都总结了一个样本数递增，候选蛋白递减，从非靶向到靶向的一个发现策略[1]。总体来说，我们把临床前发现实验分为三个阶段: 差异发现，初步验证和最终确证（图2）。根据我们上一讲中提到的生物标志物开发正式框架，我们整个临床前发现实验的目标是发现可信度高的生物标志物，此时还不需要确定最终用于临床检测的方法和判断疾病的筛选阈值。

1. 差异发现
在差异发现阶段，比起通量，我们更在乎的是血浆蛋白质的覆盖深度，只有在发现阶段能够定量到那些可能成为标志物的低丰度蛋白，我们才有可能在后续的实验中去评价它。

大家都知道蛋白质组学定量的方法有很多种，包括像基于体内代谢标记的SILAC,以及基于体外化学标记的稳定同位素二甲基标记,isobaric标记等都可以在此过程中使用。由于缺乏合适的，和血浆蛋白组成类似的细胞系作为内标，SILAC方法在血浆（或血清）蛋白质生物标志物的发现中很少应用[2]。而isobaric标记则提供了一个更为现实的血浆蛋白质定量方法。

Steven A. Carr实验室进行了一项心血管疾病生物标志物的发现实验[3]。通过对肥厚梗阻型心肌病人实施酒精消融术，研究人员选取基准点，术后10分钟，60分钟, 240分钟四个点抽取病人外周血进行蛋白质组学分析来发现早期心肌损伤的标志物。为了增加对血浆低丰度蛋白的覆盖，研究人员采用IgY14/SuperMix免疫去除柱对血浆样品进行了高、中丰度蛋白的去除，蛋白质酶切后，采用isobaric标记来定量（图3）。

在这篇文章中，研究人员得到了到目前为止对血浆蛋白质组的最为深度的覆盖，即便采用2条（及以上）的肽段来对蛋白质定量，依然在每个病人的四个采血时间点中有大于4800个蛋白质能够被定量，这些低丰度蛋白质的浓度范围跨越了9个数量级。像已知的早期心肌损伤标志物心肌肌钙蛋白I和T（cTnI, cTnT）都可以非常高可信的在所有病人的血浆样品中被定量，要知道，这两个蛋白质在血浆中的含量一般都在pg/mL级。有了如此的定量深度，那么我们才能保证我们在最初的发现阶段不至于漏过太多的有潜在价值的标志物候选蛋白。

图3. 早期心肌损伤标志物发现实验设计

其实我们在血浆中进行biomarker发现时会有一个假设，那就是我们认为肿瘤细胞的一些分泌蛋白，细胞表面蛋白以及溢出蛋白等会进入循环系统，从而成为疾病指征的标志物。而这些类型的蛋白质通常糖基化的程度都比较高，因此有不少的研究从糖蛋白入手，去发现血浆中的疾病标志物。

事实上，非常多的FDA approve的biomarker就是糖蛋白，例如前列腺癌标志物PSA, 卵巢癌标志物CA-125等。再例如甲胎蛋白（AFP）有三种糖基化形式，AFP-L1,L2,L3。AFP-L3% assay就是检测AFP –L3糖型在全部AFP中的比例，从而在长期肝病病人中指示肝癌的风险[4]。采用糖基化蛋白质组学手段进行血浆标志物的发现通常需要依赖各种凝集素（lectin）在蛋白质或者肽段水平对糖基化进行富集，随后采用定量蛋白质组学的策略去发现差异。

2014年MCP上的一项研究就采用了这样的方法进行小细胞肺癌（SCLC）转移相关标志物的发现[5]。在这个工作中，研究人员分别采集了正常人群，非转移小细胞肺癌和转移小细胞肺癌病人的外周血用于标志物的发现。在实验阶段，病人的血浆通过除高峰度蛋白处理后，采用凝集素富集岩藻糖蛋白，在酶解后同样采用isobaric标记的方法进行糖蛋白的定量（图4）。最后在100多个定量的糖蛋白中发现了潜在的小细胞肺癌的标志物。有些时候糖基化修饰的改变可能和蛋白质量的变化不一致。在此例中, PON1 （Serum Paraoxonase 1）通过western验证蛋白质表达在肺癌病人中下调，而其糖基化却通过hybrid lectin ELISA发现在肺癌病人中上调。

图4. 小细胞肺癌糖基化标志物发现实验设计

2. 初步验证
通过发现阶段的实验，我们得到了一些差异候选蛋白，那么初步验证阶段的目的就是扩大样本数量对这些差异表达进行进一步的筛选。由于在差异发现阶段我们通常只会采用个位数的样本，有时还可能会采用混合样本，并且在差异发现阶段我们通常采用数据依赖的采集模式，那么这个时候很有可能某一个蛋白质在疾病和正常组中可能仅有2,3例样本有定量信息，这样我们无法采用统计学检验方法去判断这个蛋白是否是差异蛋白。而在初步验证阶段，我们一般会引入数十例样本，并且采用靶向或半靶向的方法进行蛋白质定量，以期尽量减少missing value的问题，使得每个靶蛋白都能在足够多例样本中定量，从而有足够的statistical power来判断差异蛋白。

在这个阶段我们可以采用多种靶向的定量方法，例如inclusion list MS2(采用MS1定量), SRM, PRM等靶向的方法，以及DIA等半靶向的方法。一般来说，我们的差异蛋白列表可能在100-200个蛋白质，那么这个时候我们需要考虑的就是质谱是否有足够的速度去覆盖这100-200个蛋白质的肽段。

一般来说，不管采用inclusion list MS2, SRM还是PRM,我们检测一个肽段通常需要50-80毫秒，那么一个2秒的cycle就能检测约30个肽段，若想要覆盖200个蛋白质的肽段，我们就需要一定长度的色谱洗脱时间，然后分段监控不同的靶肽段。而在样品前处理上，为了能对低丰度蛋白质定量，通常还是需要进行高丰度，乃至中丰度蛋白的去除，但是由于样本量增加，我们一般不再进行肽段的预分级。若有些蛋白丰度确实太低，即便再进行了高、中丰度蛋白质去除和靶向检测后仍然不能定量到该蛋白，且这个蛋白质又足够重要，那么我们还是需要去进行肽段预分级，但只需要对这个肽段所在的组分进行检测即可。
此外，在是否需要掺入重同位素肽段作为内标这一点上，由于差异蛋白数量较多，从经济上考虑一般不适合做重标掺入，毕竟肽段合成用的重同位素氨基酸价格不菲。我们可以考虑采用总离子流强度，或是一些house keeping蛋白来做样品间的归一化。

图5. DIA工作流程

DIA和SRM, PRM不同，我们称之为半靶向的采集方式，其数据采集还是非靶向鸟枪法的模式，而在数据分析谱图库构建时我们却可以选择性的去构建该库。相比于DDA,DIA的优点在于可显著减小missing value的问题，使得每个定量的蛋白质几乎可以在所有样本中都定量。

根据谱图库构建方式的不同，DIA的方法可以用于整个发现流程的不同阶段。若我们将DDA采集的所有鉴定蛋白都用于构建谱图库，那么这样的DIA方法适用于差异发现阶段。我们也可以只将发现阶段的候选差异蛋白用于构建谱图库，那么这种半靶向的DIA则可以用于初步验证阶段。

2015年JPR的一篇文章对于尿液样本采用DIA的方法来寻找差异蛋白，通过高通量的自动化样品处理流程，一个样本只需2.75小时便能到实验结果，其中还包括30分钟的质谱分析时间（图5）。结果在通过DDA数据建得的包含2500+个蛋白质的谱图库中，有大于1300个蛋白能通过DIA数据在单个样品中定量[6]。由此我们可见，DIA方法的优点是简单快速，为了达到这个目的通常在做DIA实验时我们不对样品进行肽段预分级。当然在血浆样品中为了进一步覆盖更多的低丰度蛋白，必要的高、中丰度蛋白去除也是不可避免的，我们在demo实验室也进行了这样的DIA血浆蛋白质组实验，得到了不错的效果，具体请咨询周岳工程师（yue.zhou@thermofisher.com）。但对于血浆蛋白质来说, single shot的DIA实验始终还是存在着覆盖深度不够的问题，因此在进行DIA实验时，肽段的预分级有时也是很有价值的。

图6. 尿液样本DIA分析用于发现差异蛋白

3. 最终确认
通过上一步的筛选，这时我们的差异蛋白列表会进一步缩小，一般包含十个到几十个的候选蛋白。那么在最终确认阶段，我们则要通过百例以上的样本来进一步在大样本上验证差异蛋白，并对最终确认的这些差异蛋白质构建预测模型，评价这些marker对于疾病判断的真阳性率，假阳性率，ROC曲线等指标。

在这个步骤中我们可以采用基于质谱的靶向定量方法，或直接使用抗体方法（如ELISA）来对差异蛋白进行定量。采用抗体方法定量的优点是灵敏度高，但是由于抗体的质量往往无法保证，因此很有可能造成假阳性或假阴性的结果。质谱靶向定量方法SRM,PRM（尤其是PRM）的方法具有非常高的选择性，但是灵敏度却不如抗体方法,对于血浆中丰度很低的蛋白质（ng/mL级）往往无法检测。对于这种情况，我们通常会在蛋白质或者肽段水平对我们的目标蛋白先进行免疫富集，随后再进行SRM,PRM的分析，这样可以同时满足高灵敏度和高选择性。而在最终确认这一步中，在进行SRM,PRM实验时，我们一般需要掺入重标肽段作为内标来对目标蛋白进行绝对定量。这样的immuno-SRM, immune-PRM的方法其实有许多商业化的解决方案，包括经典的SISCAPA方法[7]，以及Thermo Fisher的MSIA方法[8]等。

PRM方法可能大家不一定非常熟悉。PRM称为平行反应监控（Parallel Reaction Monitoring），其是在Q-Orbi（QE, Fusion系列）上实现的一种靶向定量采集方法。在PRM模式下，我们对inclusion list中的目标母离子进行捕获和碎裂，用Orbitrap采集包含所有碎片离子的二级谱，而在数据分析时则和SRM类似，采用特定的母子离子对（transition）来对目标肽段定量。因此，PRM和SRM最大的差别在于，SRM的母离子和碎片离子都是低分辨的，而PRM的母离子是低分辨的，而碎片离子是高分辨的（图7）。这样，PRM就能比SRM更能不受基质效应的干扰，经数据实测，PRM能在灵敏度上和SRM相当，而在选择性上优于SRM。其实，PRM最大的优点还是在于经济性上，当实验室只有一台高分辨质谱时，我们也能完成标志物开发Preclinical Exploratory Studies的上下游全部流程。

图7. SRM, PRM方法示意

当通过上述三个步骤，我们最后得到了高可信的biomarker candidate, 并且通过预测模型对这些marker的clinical performance进行了初步评估后，我们就能够很有信心的进入Phase II study, 真正去建立最终用于临床检测的方法。在Phase II的研究中，不管是对抗体还是质谱方法，我们对其analytical performance都会有更严苛的要求来真正达到临床检测的需求（具体请参考第二期）。

本文作者：唐家澍博士，赛默飞应用工程师

往期回顾
生命科学质谱在精准医疗中的应用 | 第一期
 生命科学质谱在精准医疗中的应用 | 第二期

参考文献
1. Rifai,N., M.A. Gillette, and S.A. Carr, Proteinbiomarker discovery and validation: the long and uncertain path to clinicalutility. Nat Biotechnol, 2006. 24(8):p. 971-83.
2. Mangrum,J.B., et al., Intact stable isotopelabeled plasma proteins from the SILAC-labeled HepG2 secretome. Proteomics,2015. 15(18): p. 3104-15.
3. Keshishian,H., et al., Multiplexed, QuantitativeWorkflow for Sensitive Biomarker Discovery in Plasma Yields Novel Candidatesfor Early Myocardial Injury. Mol Cell Proteomics, 2015. 14(9): p. 2375-93.
4. Li,D., T. Mallory, and S. Satomura, AFP-L3:a new generation of tumor marker for hepatocellular carcinoma. Clin ChimActa, 2001. 313(1-2): p. 15-9.
5. Ahn,J.M., et al., Integrated glycoproteomicsdemonstrates fucosylated serum paraoxonase 1 alterations in small cell lungcancer. Mol Cell Proteomics, 2014. 13(1):p. 30-48.
6. Muntel,J., et al., Advancing Urinary ProteinBiomarker Discovery by Data-Independent Acquisition on a Quadrupole-OrbitrapMass Spectrometer. J Proteome Res, 2015. 14(11): p. 4752-62.
7. Anderson,N.L., et al., Mass spectrometricquantitation of peptides and proteins using Stable Isotope Standards andCapture by Anti-Peptide Antibodies (SISCAPA). J Proteome Res, 2004. 3(2): p. 235-44.
8. Krastins,B., et al., Rapid development ofsensitive, high-throughput, quantitative and highly selective massspectrometric targeted immunoassays for clinically important proteins in humanplasma and serum. Clin Biochem, 2013. 46(6):p. 399-410.

热点排行

新闻专题

联系信箱：

粤ICP备09063491号