编辑推荐:
在蛋白质组学研究中,为解决传统液相色谱 / 串联质谱(LC/MS/MS)分离能力不足及肽碰撞截面(CCS)预测难题,研究人员开展基于预训练深度蛋白质语言模型预测肽 CCS 的研究,结果表明该模型预测性能好且训练时间大幅缩短,推动了蛋白质组学发展。
在生命科学领域,蛋白质承担着生物体的各种重要功能。深入了解蛋白质何时、何地以及如何表达,对于系统分析生物功能至关重要。然而,蛋白质组学研究面临着诸多挑战。在细胞和组织中存在着数量庞大的蛋白质,仅典型的人类蛋白质组样本就包含超过千万种蛋白酶消化后的肽段 ,其复杂性远远超出了当前液相色谱 / 串联质谱(LC/MS/MS)系统的分离能力。
为了更好地分离和分析这些肽段,离子淌度谱(IMS)技术应运而生。IMS 通过测量离子在缓冲气流中受电场影响的迁移率,根据离子的电荷和形状对分子进行分离 。离子 - 气体碰撞的频率,即碰撞截面(CCS),决定了离子在气相中的迁移率 。这一技术为肽段分离提供了额外的维度,有效解决了传统 LC/MS/MS 中肽离子分离不足的问题,不仅能改善肽异构体的分离,还能提高定量分析的准确性。
但要充分发挥 IMS 的优势,准确预测肽离子的 CCS 值至关重要。此前的研究中,虽然已经提出了一些 CCS 预测算法,如 Clemmer 团队建立的基于氨基酸组成的内在尺寸参数(ISP)模型,但这些模型存在局限性,难以准确预测较长肽段的 CCS 值。随着深度学习在各个领域取得巨大成功,利用深度神经网络(NN)模型进行 CCS 预测成为新的研究方向,但传统的从头训练的深度 NN 模型存在训练时间长、计算负荷大等问题,在许多计算资源有限的实验室中难以应用。
为了解决这些问题,名古屋工业大学研究生院、京都大学等研究机构的研究人员开展了一项基于预训练深度蛋白质语言模型预测肽碰撞截面的研究,相关成果发表在《Communications Chemistry》上。该研究旨在开发一种能够在低成本下实现合理性能的 CCS 预测模型,推动蛋白质组学研究的发展。
研究人员使用的主要关键技术方法如下:
- 数据集构建:利用磷酸化蛋白质组数据构建实验肽 CCS 数据集。通过多种蛋白酶消化 HeLa 细胞提取物,富集磷酸化肽段并进行去磷酸化处理,得到包含多种电荷状态、不同长度肽段的数据集。
- 模型构建:提出基于预训练蛋白质语言模型的网络(PPLN)。使用预训练的深度蛋白质语言模型(如 ESM-1b)作为特征提取器,结合位置编码(PE)和预测神经网络(NN)来预测 CCS 值123。
- 模型评估:将数据集随机划分为训练集和测试集,使用皮尔逊相关系数(r)、均方根误差(RMSE)、平均绝对误差(MAE)和 Δ95% 误差等指标评估模型的预测性能,并与传统的预测方法进行对比。
下面介绍该研究的主要结果:
- 模型架构优化:研究发现引入考虑氨基酸位置的双向位置编码(PE)比简单平均聚合效果更好,将离子的电荷数和质量作为预测 NN 的输入,有助于提高模型的学习效果45。
- 预测性能评估:PPLN 在预测较长肽段和高电荷态肽离子的 CCS 值时表现更优,相比传统的基于长度特异性多元线性回归(LS - MLR)模型,具有更低的 RMSE 和更高的相关性系数。与从头训练的双向 LSTM 模型相比,PPLN 在不同性能指标下表现相当或更优67。
- 消融实验验证:通过消融实验验证了 PPLN 中各组件的重要性,证明了电荷数、质量信息以及双向 PE 在模型中的必要性。去除这些组件会导致模型性能下降89。
- 训练时间优势:PPLN 使用预训练模型作为特征提取器,大大简化了训练过程。在使用不同比例样本进行训练时,PPLN 的训练时间大幅缩短,即使考虑预处理时间,其执行时间也减少到传统双向 LSTM 模型的 1/4 - 1/3。同时,PPLN 在预测时也能更快完成,且能耗更低101112。
- 提高肽段鉴定能力:准确的 CCS 预测有助于提高下游任务的性能。以肽段鉴定任务为例,使用 PPLN 预测的 CCS 值能减少错误匹配,提高鉴定的准确性13。
研究结论和讨论部分指出,PPLN 通过使用预训练的深度蛋白质语言模型,能够在更短的训练时间内实现对较长肽段 CCS 值的准确预测,在与传统方法的对比中展现出明显优势。这一研究成果不仅为肽段性质的预测提供了新的思路和方法,也为蛋白质组学研究中的定量分析、肽段鉴定等任务提供了有力支持。
此外,研究还发现模型大小对预测准确性和执行时间有影响。未来研究可以探索使用更大或更小的蛋白质语言模型作为特征提取器,以进一步优化模型性能。同时,目前的模型对可变修饰的适用性有限,开发适用于可变修饰肽段的模型将是未来重要的研究方向。
总的来说,该研究在肽 CCS 值预测领域取得了重要进展,为蛋白质组学研究开辟了新的道路,有望推动生命科学和健康医学领域在蛋白质分析方面的进一步发展。