串联质谱数据的从头解析与蛋白质的数据库搜索鉴定

【字体：大中小】 时间：2001年02月23日 来源：

编辑推荐：

盛泉虎解涛丁达夫

（中国科学院上海生物化学研究所，上海200031）

摘要蛋白质的鉴定是蛋白质组学研究中必不可少的一步。用串联质谱（tandem mass pectrometry，MS/MS）可以进行多肽的从头测序（de novo sequencing），并搜索数据库以鉴定蛋白质。用图论以及真实谱-理论谱联配（align-ment）的方法对串联质谱得到的多肽图谱进行从头解析，得到了可靠的多肽序列，并应用到数据库搜索中鉴定了相应的蛋白质。同时，还用统计的文法对SwissProt以及TrEMBL蛋白质数据库进行了详细的分析。结果表明，3个四肽或者2个五肽者1个八肽一般可以唯一地确定一个蛋白质。

关键词 蛋白质组信息学；串联质谱；数据库；蛋白质鉴定

随着人类基因组计划接近尾声，蛋白质组的研究日益受到重视。一般研究过程主要包含三个部分：分离与研究目的相关的蛋白质；蛋白质的鉴定；蛋白质功能的细致研究^[1]。其中蛋白质的鉴定是非常重要的一步。现在，世界上有很多与数据库搜索结合在一起的鉴定方法，如氨基酸组成、由一级质谱得到的肽指纹图谱以及从Edman降解或者串联质谱得到的多肽序列。

在蛋白质鉴定的各种方法中，氨基酸组成分析一般作为其他方法的辅助手段。肽指纹图谱鉴定的可靠性受酶切位点多少以及肽段质量兼并性的影响。序列的匹配一向被认为是特异性最好的鉴定方法。例如N端序列，一般5个残基就右以鉴定80%以上蛋白质^[2]。但是Edmam降解需要花费大量的时间。随着质谱技术的发展，通过串联质谱测定蛋白质的多肽序列，并搜索数据库成为大通量鉴定蛋白质的新方法。而结合肽指纹图谱等其他信息则可以大大提高鉴定的灵敏度。

采用串联质谱测定蛋白质多肽序列并用于数据库搜索来鉴定蛋白质，涉及两个问题；（1）如何从串联质谱数据从头解析出可靠的多肽序列；（2）多长的多肽序列可以唯一的确定一个蛋白质。

从串联质谱数据从头解析多肽序列，现在已经有多种方法，其中比较早的有Taylor等^[3]提出的Lutefisk法，较新的则有Dančík等^[4]提出的Sherenga法。Taylor等在用图论^[5]的方法得到可能的多肽序列后，用与Eng等^[6]相似的相关分析对多肽序列进一步打分排序。但是这种方法没有考虑理论峰实际出现的概率大小。而Dančík等考虑了这种出现概率，有了进展，但是他们没有利用实验谱中峰中强度信息。其实，实验谱峰的强度，也表达了这个峰的可靠程度。

这里，我们先用图论的，对串联质谱得到的多肽图谱进行从头解析，以便得到可能的多肽序列。然后彩真实谱-理论谱联配的方法，对这种多肽序列的可靠性进行了考察。使用联配的方法有三个好处：（1）由于不需要把理论谱和实验谱进行整数化，有效地避免了峰的扩展，进而防止了峰的多对一现象的出现；(2）联配打分考虑了理论峰出现的概率，使用"理论峰出现就加分，未出现就罚分"的方法；（3）联配打分同时还考虑了实验峰的强度，充分利用了实验信息。

现在对串联质谱数据的理论解析都希望得到的序列越长越好，这样用于数据库搜索鉴定蛋白质时比较特异。但是，随着多肽片段长度的增大，得到的数据的复杂度也随之增大，导致数据的解析变得非常困难，得到的虚假序列的可能性增大。两者是一对矛盾。在这里，既然串联质谱分析的目的是为了鉴定蛋白质，那么，究竟多少个和多长的肽片段序列就可以唯一地确定一个蛋白质呢？我SwissProt和TrEMBL蛋白质数据库的大通量统计分析，对这个问题进行了探讨。

我们开发了单机使用版本的质谱解析软件PepMass有及蛋白质数据库搜索软件Protein Explorer,可用于串联质谱数据的解析以及蛋白质序列的搜索与鉴定。用PepMass对一些蛋白质的多肽串联质谱进行了解析，用Protein Explorer进行了数据库搜索鉴定蛋白质，得到了满意的结果。

1 材料和方法（Materials and Methods）

1.1 材料

1.1.1 质谱解析的数据源串联质谱数据来自中科院上海生物化学夏其昌组，解析得到的多肽片段用于数据库搜索以鉴定蛋白质。串联质谱数据见表1。

Table 1 List of peptides used in MS/MS

Protien	Peptide

IL2_human	FYMPK,MLTFK
CASB_bovin	EAMAPK,EMPFPKFPIIV,GPFPIIV,VLPVPQK
CYC_horse	EDLIAYLK,GITWK,IFVQK,KATNE,KYIPGTK,MIFAGIK,YIPGTK

IL2: interleukin-2 precursor; CASB: beta casein precursor; CYC: cytochrome C.

1.1.2 蛋白质序列数据库数据库SwissProt和TrEMBL来自瑞士ExPASy生物学网站^[7]，版本为37，其中SwissProt包含了82 229个蛋白质序列（其中人的为5 514个），TrEMBL包含了225 165个蛋白质序列。

1.1.3 用于大通量数据库搜索分析的多肽片段从SwissProt得到2个非冗余的测试集，其中序列长度均大于50: (1）由人蛋白质子库选取1 000个形成；（2）由整库中选取1 000个形成。

同时，我们还建立了3个随机测试集，均有1 000个数据：（1）每个数据包含3个随机四肽；（2）每个数据包含2个随机五肽；（3）每个数据包含1个随机八肽。

1.2 方法

1.2.1 用串联质谱解析肽序列像图1（A）所示，若不计末端，则形成肽的氨基酸序列P=p₁p₂…p_n。肽序列的质量是：

	n
m(P)=	∑	m(P_i)
	i=1

肽的分子质量是其序列质量与水质量（H₂O）之和。在串联质谱中，肽裂解成各种类型的离子，可用不同的质量补偿参数△={δ₁,…,δ_k}来表示离子类型。例如图1（B）中，第二肽与第三肽之间的肽键断裂会产生C端y型离子

以及N端b型离子

Fig.1 Ion types of tandem mass spectrum

它们的质量分别是它们所含残基的质量之和（即序列质量）再加上补偿质量；对y₂，补偿质量δ₁=19；对b₂，补偿质量δ₂=1。实验所得的质谱主要由N端部分肽和C端部分肽的某些δ型离子的质量构成的，其资料见表2^[4]。一般，若N端部分肽序列P_i=p₁p₂…p_i和C端部分肽序列Pi^-= p_i+1…p_n, 则P_i的δ型离子质量等于m(P_i)+δ；P_i-的δ^-型离子质量等于m(P_i^-)+δ^-。这样，一条肽的理论质谱可由它的所有部分肽的序列质量加上所有可能离子类型的δ₁,δ₂,…δ_k得到。于是串联质谱解析肽序列的问题就是：已知质量为m的实验质谱S和离子类型集△={δ₁,…,δ_k},要求定一条质量为m有肽P,使得P的理论质谱的与S有最大匹配。

Table 2 Information about terminal ion types
　

δ	Probability	Average intensity	Terminal	Ion

19	0.6895	4.5457	C	y
1	0.6484	2.2788	N	b
-17	0.3858	1.1966	N	b-H₂O
1	0.2831	0.5716	C	y-H₂O
-27	0.2329	0.7537	N	a
20	0.2089	3.4699	C	y²
-16	0.1815	1.2766	N	b-NH₃
2	0.1495	0.6680	C	y-NH₃

y² is the type y ion with charge +2

对于一个实验谱S={s₁,…,s_m}，它的母离子（precursor ions）质量为m(s),即上述的肽分子质量加上质子质量，偏差为ε₁(一般取1.0)，所带的电荷数为n（本文取1），峰s_k的质量为m(k)，强度为I(k)，质谱仪的分辨率为ε₂（一般取0.5)，我们可以分四步进行从头预测吻合最好的多肽P（图2）。

Fig.2 PepMass flow chart

（1）筛选实验谱线由于实验得到的质谱包含很多杂谱（noise ions），真正的离子峰只是其中一小部分，需要先对谱线进行预处理。

如果实验谱一是按连续质量收集的峰，则首先进行统计平滑^[3]。随后删去母离子峰±ε₂范围内的峰，避免干扰。接着，如果存在离子峰对{s_k，s_k+1}，满足|m(k+1-m(k))|<ε₂,则删除强度较小的峰。将s(s₁,…,s_m)按强度降序排列，保留前M个峰^[4],M=m(s)/100×5。最后s(s₁,…,s_m)按最高强度为100进行强度的归一化。

（2）得到b离子可靠性分布图根据实验谱S以及离子类型△，我们可以构造带权值的一个b离子峰图G△(S)。权值的大小表示该离子是真实b离子峰的可靠程度（图3）。

Fig.3 Example showing transformation from a CID spectrum to N- and C-terminal reliability distributions.

For simplicity, only singly charged fragment ions are shown in this example. (A)Hypothetical mass spectrum containing ions at m/z 233.1, 244.1, 260.9, 487.2, 505.0. (B)Results of transforming the mass spectrum to N-terminal reliability. (C)Results of transforming the mass spectrum to C-terminal reliability. (D)Results of combining N-terminal reliability with C-terminal reliability.

(2.1) N-端离子峰的可靠性分布图。在实验质谱中，若某一离子峰属b型的话，则从表1知它的可靠性为出现概率0.65；若同时还能认知其他峰属于a、b-NH₃或b-H₂O型的话，则该离子属b型的可靠性将分别增加0.23, 0.18和0.39。这些认知可从它们的δ之差来判别。例如图2A中质荷比为244.1和487.2的两个离子，它们对应的b离子的质荷比分别为260.9和505.0，因为两者的质量差分别是NH₃和H₂O。于是峰260.9和505.0作为b型峰的可靠性将分别增加到0.65+0.18和0.65+0.39；进而峰260.9和233.1质量差为27.8，可知后者是相应的a型峰。于是峰260.9作为b型离子峰的可靠性又上升到0.65+0.18+0.23。这样就得到了N端离子峰的可靠性分布图[图3（B）]。

（2.2）C-端离子峰的可靠性分布图。C-端离子峰可靠性分布图的构造方法同N-端的类似，此时要考虑y型离子△={y、y²、y-NH₃、y-H₂O}，再根据母离子质量转换成对应的b离子，最终得到GY(y₁、…,y_m)。 y型离子质谱转换成b型离子质谱用到公式：m(y)+m(b)=m(s)+m(H)

此地m(s)是母离子的质量，m(H)是质子质量。像图2中的m(s)是764.9。这里，y离子的初始可靠性为0.68，存在y-NH₃、y-H₂O或y²则y可靠性分别增加0.15, 0.28和0.21。依此，得到C端可靠性分布图GY(y₁,…,y_m)[图3（C）]。

（2.3）合并N-端和C-端的离子峰可靠性分布图得到b离子峰可靠性分布图。将GB与GY合并，如果GB与GY有相同的离子峰，则可靠性为两个离子峰的可靠性之和。再添加g₀(质量为N端质量）和g_n（质量为母离子质量减去C端质量），作为起始和终止离子峰。最后得到b离子峰图G_△(S)={g₀,…,g_n}[图3（D）]。

（3）根据b离子峰图得到候选多肽序列通过图论方法可以由G_△(S)得到多个候选的多肽序列（图4）。

若G_△(S)中如果存在离子峰对{g_i,g_j}(i<j)满足m(j)-m(i)=m(a),则称(i,j)为i到j的一条单向通道，且其可靠性为g_i的可靠性，进而得到通路图（图4B）。这里，m(a)表示一个氨基酸残基的质量。任何一条从g₀到g_n的通路即为一个候选的多肽序列，且其可靠性为经过的多条通道的可靠性之和。例如图3C中的实践。由于实验谱线的不完整性，所以还考虑{g_i,g_j}相差两个氨基酸残基质量的情况。

（4）实验谱-理论谱联配以及按得分排队用实验谱-理论谱联配的方法可以对候选多肽序列进行细致打分，以找出匹配最好的序列。

（4.1）对于任一候选多肽序列P，以及离子类型△，可以得到理论谱P(p₁,…,p_m)。对于其中任一离子P_k，根据其离子类型δ，设定与实验谱匹配时的加分：I(P_k)=Probability(δ)×Average intensity(δ)×100；以及没有实验谱与之匹配时的罚分：g(P_k)=-0.2×Probability(δ)×[Average intensity(δ)×100]²；这里，Probability (δ)和Average intensity (δ)见表2。

（4.2）实验谱S(s₁,…,s_i,…,s_m)和理论谱P(p₁,…,p_j,…,p_n)进行联配，以找出S和P的最佳匹配。由于实验谱含有杂谱，故实验谱峰未在真实谱出现时不罚分。

H(i,j)=max{H(i-1,j-1)+C(Si,Pj),H(i-1,j),H(i,j-1)+g(Pj)}ifi>0 and >0=0 ifi=0=H(0,j-1)+g(Pj)ifi=0 and j≠0

C(Si,Pj)=I(Pj)×I(Si);if-ε₂≤m(P_i)-m(s_i)≤ε₂=g(Pj);elsewhere

最佳匹配分数Score=max{H(t,n),t=1..m}

(4.3)将所有候选序列的最佳匹配分数归一化，并按降序排列。若相邻两序列i-1,i,Score(i-1)-Score(i)>0.1或者Score(i)<0.8，则余弃i以后的候选序列。余下序列中排名第一的即为最佳序列。

1.2.2 根据多肽片段通过搜索数据库鉴定蛋白质

我们编写的Sequence Explorer软件，可将SwissProt和TrEMBL文本数据库导入到Access数据库Protein Sequences中，以方便统计与查询。

对测试集1的每个蛋白质，取N个长度为L的短肽（N=1…5,L=3…8）,搜索人蛋白质子库，找到包含全部N个短肽的蛋白质。对测试集2的每个蛋白质，取N个长度为L的短肽（N=1…3,L=4…8），搜索SwissProt整库以及TrEMBL整库。对随机测试集1、2、3,用每个数据的所有短肽片段搜索SwissProt整库。

2 结果和讨论（Results and Discussion）

2.1 由多肽串联质从头预测多肽序列结果

用PepMass对串联质谱多肽数据进行从头预测序列结果如表3。

Table 3 Result of de novo sequencing analysis from MS/MS by PepMass

Protien name	True peptide	Most similarity peptide by de novo sequencing	Rank/Total peptide

	FYMPK	FYMPK	1/1
IL2_human	MLTFK	MLTFK	1/1
	KATELK	KATELK	1/24

	EAMAPK	EAMAPK	1/1
CASB_bovin	EMPFPK	EMPFPK	1/52
	FPIIV	FPIIV	1/1
	VLPVPQK	VLPVPKK	1/1

	EDLIAYLK	EDLLAYLK	1/80
	GITWK	(GL/AV)TWK^a	1/2
	IFVQK	IFVKK	5/30
CYC_horse	KATNE	KATNE	4/5
	KGIPGTK	KGPLGTK	3/33
	YIPGTK	(LY/EF)PGTK	1/3

^a(GL/AV)TWK means GLTWK or LGTWK or AVTWK or VATWK

可见，对于8肽以下的短肽，PepMass可以比较准确的从头解析。（由于质量兼并性，氨基酸I=L,Q=K）。然而，这些短肽是否足以鉴定蛋白质？我们从上表中，选取预测得到的多肽序列，结合实验材料的种族来源，搜索SwissProt整库，结果见表4。

Table 4 Result of searching SwissProt protein database using peptide sequenced from MS/MS

Protein	Search conditions		Search result

	Peptide tags	Species	Protein name

1	MLTFK	Human	IL2_human/UE3A_human^a
	FYMPK	Human	IL2_human/MTA1_human
	KATELK	Human	IL2_human

2	EAMAPK	Bovine	CASB_bovin
	EMPFPK	Bovine	CASB_bovin
	FPLLV	Bovine	CASB_bovin
	VLPVPKK	Bovine	CASB_bovin

3	EDLLAYLK	Horse	CYC_horse
	(GL/AV)TWK	Horse	CYC_horse
	(LY/EF)PGTK	Horse	CYC_horse

^aIL2_human/UE3A_human means result including two proteins:IL2_human and UE3A_human

可见，对短肽的串联质谱进行解析，得到比较可靠的序列，结合其种族来源，用于搜索数据库，即使是很短的肽，也能准确的鉴定蛋白质[例如表4蛋白质2中的FPLLV、3中的（GL/AV）TWK]。对于蛋白质1，虽然MLTFK和FYMPK都搜索到了两种蛋白质，但对MLTFK、FYMPK和KATELK搜索结果统一考虑，可知正确的结果是IL2_human。

2.2 大通量数据库搜索分析结果

测试集1：人蛋白质子库中多肽片段异性。结果见表5和图5。

Table 5 Result of analysis human protien database using data set 1

L	N	Identified	Homologies	L	N	Identified	Homologies
3	1	0	66	6	1	702	116
3	2	5	19	6	2	912	53
3	3	49	23	6	3	939	39
3	4	237	36	6	4	952	32
3	5	504	30	6	5	966	19
4	1	3	19	7	1	834	107
4	2	671	65	7	2	915	58
4	3	909	56	7	3	950	34
4	4	938	37	7	4	956	27
4	5	949	35	7	5	968	25
5	1	287	82	8	1	859	89
5	2	898	62	8	2	931	49
5	3	934	45	8	3	946	37
5	4	955	31	8	4	964	27
5	5	955	26	8	5	967	25

Fig.5 Result of analysis human protien database using data set1

可知，用三肽搜索人蛋白质子库来鉴定蛋白质没有意义，甚至到5个三肽，能鉴定蛋白质的概率也只有50%左右。对其他肽段的分析见表6。

Table 6 Threshold of sequence tag length needed to identify protien when tag number fixed

Number of tags	Length of tag	Identified	Identified+Homologies

1	7	83.2%	94.1%
2	5	89.0%	96.0%
3	4	89.6%	96.6%

因此，至少用1个七肽或2个五肽或3个四肽才能在人蛋白质子库中基本鉴定一个蛋白质。

为了验证这个结论在更大搜索范围内的可靠性，我们对SwissProt和TrEMBL整库进行了分析。根据测试集1的结果，不再用三肽，以及4个以上的多肽同时搜索数据库。

测试集2-A：SwissProt整库中多肽片段特异性。结果见表7和图6.

测试集2-B：TrEMBL整库中多肽片段特异性。结果见表8.

因为TrEMBL中的序列没有标明种族和蛋白质名，所以无法分析搜索到的蛋白质与测试集的原始蛋白质是否是同源蛋白质或者不同种族的同一蛋白质。但由于TrEMBL远远大于SwissProt，可以认为，当TrEMBL中未搜索到匹配蛋白质时，原始蛋白质在SwissProt中也被唯一确定。

Table 7 Result of analysis human protien database using data set 2

L	N	Identified	Homologies	L	N	Identified	Homologies
4	1	0	45	6	3	942	47
4	2	271	51	7	1	773	107
4	3	886	60	7	2	923	62
5	1	28	37	7	3	946	44
5	2	888	79	8	1	845	99
5	3	925	61	8	2	934	54
6	1	419	94	8	3	946	44
6	2	918	65

Identified protein include results which are all same proteins in dif-ferent species

Fig.6 Result of analysis human protien database using data set 2

Table 8 Result of analysis TrEMBL protein database using data set 2

L	N	Number of proteins which contain all sequence tags

		0	1	2	3	>3

4	1	0	0	0	0	1000
4	2	130	129	99	86	556
4	3	735	145	42	30	48
5	1	6	6	12	13	963
5	2	769	114	36	21	60
5	3	827	90	26	10	47
6	1	219	181	120	119	361
6	2	809	95	33	13	50
6	3	851	81	22	10	36
7	1	613	176	68	37	106
7	2	828	91	27	14	40
7	3	865	74	24	8	29
8	1	725	131	33	28	83
8	2	834	92	25	11	38
8	3	869	73	21	9	28

由此可见，与人蛋白质子库相比，对SwissProt整库的搜索，除了由于1个七肽用于鉴定的准确率降到80%左右，应该用1个八肽来进行鉴定之外，2个五肽和3个四肽用于鉴定的准确率基本不变。

用随机测试集1、2、3对SwissProt整库进行了搜索，结果见表9.

L	N	Number of sequences which contain all sequence tags

		0	1	2

4	3	991	7	2
5	2	1000	0	0
8	1	999	1	0

结果表明，这种唯一性匹配不是随机产生的。

通过对数据库的大通量分析，得出结论：用3个四肽或2个五肽或1个八肽，在SwissProt整库中就可以基本鉴定一个蛋白质。

综合从串联质谱数据解析多肽序列并搜索数据库，以及理论上数据库的大通量分析的结果，可以看到，在通过串联质谱鉴定蛋白质时，短肽就可以基本达目的。与其把时间和精力放在对长肽的串联质谱数据的不精确解析上，不如对一个短肽或者多个短肽进行精确的串联质谱分析，进而迅速解析出非常可靠短肽序列，用于数据库搜索，同样能达到鉴定蛋白质的效果。另外，一般实验上可以结合其他信息，比如实验材料的种属来源、肽指纹图谱、总分子量、pI值等，一方面可以使得鉴定结果更可靠，另一方面还可以大大缩小数据库搜索范围，用更短或更少的序列就可以鉴定蛋白质。

同时应该考虑到，数据库中的氨基酸序列都是未经过修饰的，而真实的蛋白质却往往是经过修饰的。Eng^[6]等在进行数据库搜索时，通过对数据库中每个序列添加一种或几种可能的修饰，来进行多肽理论谱和真实谱的匹配打分，工作量巨大。本方法可以针对这些修饰，将相关修饰过的氨基酸作为一个新类型的氨基酸对待。在通过同样的解析方法得到多肽序列后，再将其中修饰后的氨基酸还原为未修饰的氨基酸。这样，在进行数据库搜索的时候，就可以避免对数据库序列进行组合修饰，节省了时间。这方面的进一步研究，正在进行之中。

此外，在本方法中从串联质谱数据出发解析短肽序列并未涉及到数据库，因此，它也完全可以应用于串联质谱对未知蛋白质多肽序列的从头测序。

对汤海旭博士的建议和帮助，以及刘涛博士提供了串联质谱数据一并致谢。

References

1 Wang Z Z, Zhou C L. Post-genome study-Proteomics. Acta Bio-chemica et Biophysica Sinica, 1998,30(6): 533-539(引自：生物化学与生物物理学报)

2 Wilkins M R et al. Protein identification with N- and C-terminal sequence tags in proteome projects. J Mol Biol, 1998, 278: 599-608

3 Tayler J A, Johnson R S. Sequence database searches via de novo peptide sequencing by tandem mass sepctrometry. Rapid Commun Mass Sepetrom, 1997, 11: 1067-1075

4 Dančík V, Addona T A, Clauser K R, Vath J E, Pevzner P A, De novo peptide sequencing via tandem mass spectrometry. J Comput Bio-ol, 1999, 6(3): 327-341

5 Bartels C. Fast algorithm for peptide sequencing by mass spectroscopy. Biomed Environ Mass Spectrom, 1990, 19: 363-368

6 Eng J K, McCormack A L, Yates J R. An approach to correlate tan-dem mass spectral data of peptides with acid sequences in a protein database. J Am Soc Mass Spectrom, 1994, 5: 976-989

7 http://www.expasy.ch/