使用深度模型对蛋白质组数据进行插补,该模型能够从多个数据集中学习
《Molecular & Cellular Proteomics》:Proteomics data imputation with a deep model that learns from many datasets
【字体:
大
中
小
】
时间:2025年11月20日
来源:Molecular & Cellular Proteomics 5.5
编辑推荐:
Lupine是一种基于深度学习的蛋白质组学数据缺失值填补方法,通过联合训练多组TMT质谱数据集,学习蛋白质和样本的低维嵌入表示,有效解决高比例缺失值问题。实验表明其在CPTAC癌症数据集上显著优于现有方法(如DreamAI、随机高斯采样),能识别更多差异蛋白并发现与癌症相关的GO生物学过程。Lupine支持跨模态数据(DIA/LFQ)填补,已开源为Python包。
近年来,随着质谱技术在生物医学研究中的广泛应用,蛋白质组学数据的缺失值问题逐渐成为影响研究结果准确性和可靠性的关键挑战。在定量蛋白质组学中,由于技术限制和实验条件的复杂性,许多蛋白质在不同样本中无法被准确检测,导致数据中存在大量缺失值。这些缺失值不仅降低了数据的统计效力,还限制了研究者对低丰度蛋白质的分析能力,从而影响了研究结果的全面性和可重复性。针对这一问题,研究人员开发了一种基于深度学习的蛋白质组学数据填补方法——Lupine。Lupine不仅在填补缺失值方面表现出色,还能更有效地识别差异丰度蛋白(differentially abundant proteins, DA proteins)和相关的基因本体(Gene Ontology, GO)术语,为后续的生物学分析提供了更丰富的信息支持。
### 1. 缺失值的挑战与Lupine的引入
在定量蛋白质组学中,缺失值的出现通常是由于多种技术因素,如蛋白质在色谱柱上的共洗脱、电喷雾过程中的竞争效应,以及无法可靠地将肽段与质谱图匹配等问题。这些因素使得某些蛋白质在特定样本中无法被检测到,从而导致数据中的缺失值。缺失值的存在会显著降低研究的统计效力,使研究者难以识别真正具有差异表达的蛋白质。此外,由于低丰度蛋白质的检测难度较高,缺失值往往集中在这些蛋白质上,使得它们的分析更加困难。
传统的填补方法,如高斯随机抽样(Gaussian random sampling)和K近邻(kNN)算法,虽然在某些情况下被广泛使用,但它们在处理大规模、多批次的质谱数据时表现不佳。这些方法通常基于单个数据集进行训练,缺乏对多个数据集之间潜在模式的联合学习能力,从而限制了其预测的准确性。相比之下,Lupine采用了一种基于深度学习的方法,通过联合多个数据集进行训练,从而更好地捕捉蛋白质和样本之间的复杂关系。这种策略不仅提高了填补的准确性,还增强了对低丰度蛋白质的检测能力,使得研究者能够更全面地分析蛋白质组数据。
### 2. Lupine的工作原理与方法优势
Lupine的核心思想是通过深度神经网络(DNN)学习蛋白质和样本的低维嵌入表示,从而更有效地填补缺失值。具体来说,Lupine将多个数据集整合成一个联合的定量矩阵,其中行代表蛋白质,列代表去复用的质谱样本。通过对这一矩阵的训练,Lupine能够学习到蛋白质和样本之间的潜在关联,并利用这些关联来预测缺失值。这种联合训练策略使得Lupine能够从更丰富的数据中提取信息,从而提高预测的准确性和泛化能力。
Lupine在训练过程中采用了MNAR(Missing Not At Random)的假设,即缺失值与蛋白质的丰度水平密切相关。这种假设使得Lupine能够更精确地模拟实际数据中的缺失模式,从而在填补过程中避免引入不必要的噪声。此外,Lupine还通过构建多个独立模型的集成(ensemble)来提高预测的稳定性。每个模型使用不同的超参数设置,如蛋白质因子的数量、样本因子的数量、隐藏层的数量以及每层节点数。这些模型的预测结果通过平均的方式进行整合,从而生成最终的填补矩阵。
与传统的填补方法相比,Lupine的优势在于其能够利用大规模的训练数据,并且通过深度学习的模式识别能力,更准确地捕捉蛋白质和样本之间的复杂关系。例如,在对CPTAC联合定量矩阵的训练中,Lupine的预测误差显著低于其他方法,包括DreamAI、MissForest和kNN。这种优势在多个数据集中得到了验证,表明Lupine不仅适用于TMT(Tandem Mass Tag)数据,还能够处理其他蛋白质组学技术,如DIA(Data-Independent Acquisition)和LFQ(Label-Free Quantification)。
### 3. Lupine的实验验证与性能评估
为了验证Lupine的性能,研究人员将其应用于来自CPTAC的超过1,000个癌症患者样本的TMT数据,涵盖十种不同的癌症类型。实验结果显示,Lupine在填补缺失值方面表现出色,其预测误差显著低于现有方法。此外,Lupine还能够更准确地识别差异丰度蛋白,特别是在低丰度蛋白质的检测上,其表现优于其他方法。
在差异丰度分析中,Lupine的预测结果与Savage等人的研究结果高度一致。对于大多数CPTAC队列,Lupine能够识别出大量与肿瘤存活和增殖相关的差异丰度蛋白,这些蛋白在未填补的数据中可能被忽略。此外,Lupine还能够识别出一些独特的差异丰度蛋白,这些蛋白可能在肿瘤生物学中具有重要意义。通过基因本体富集分析,研究人员发现Lupine填补后的数据能够显著提高某些与癌症相关的基因本体术语的显著性,如DNA复制、免疫系统招募、细胞间信号传导和血管生成等。
为了进一步评估Lupine的填补能力,研究人员还进行了模拟实验。在模拟的蛋白质定量数据中,Lupine能够准确识别出20%的差异丰度蛋白,并且在不同缺失率下保持较高的预测精度。例如,在0%缺失率的情况下,Lupine的AUC(曲线下面积)达到了0.95,而在60%缺失率时,其AUC仍保持在0.71。这表明,Lupine在面对高缺失率的数据时,仍然能够保持较高的预测能力。
此外,研究人员还评估了Lupine对蛋白质复合物相关性的保留能力。在未填补的数据中,蛋白质复合物内的相关性显著高于随机选择的蛋白质对。在Lupine填补后的数据中,这一趋势依然存在,表明Lupine并未引入虚假的相关性。这进一步证明了Lupine在填补过程中能够保留真实的生物学信号,而不是仅仅通过数据插补引入噪声。
### 4. Lupine的潜在应用与未来发展方向
Lupine的应用不仅限于癌症相关的蛋白质组学研究,其填补策略可以推广到其他类型的样本和质谱数据。例如,Lupine在DIA和LFQ数据上的表现同样优异,表明其具有广泛的适用性。对于不同的质谱采集策略,Lupine能够通过联合训练的方式,更好地理解不同样本之间的关系,并在填补过程中捕捉这些关系。
从数据可视化的角度来看,Lupine的嵌入空间能够有效地区分不同样本类型,如肿瘤样本和非肿瘤样本,并且在蛋白质层面也能够根据缺失率进行分组。这种嵌入能力使得Lupine不仅能够填补缺失值,还能为后续的生物学分析提供有价值的元数据支持。例如,研究人员可以利用Lupine的嵌入结果,探索不同癌症亚型之间的蛋白质表达差异,或者识别出与特定临床表型相关的异常样本。
未来,Lupine的研究方向可能包括两个方面。首先,如何为填补后的值提供置信度评估。由于这些值并非由实验直接测量,其质量可能低于原始数据。因此,研究人员正在探索一种预测驱动的推断(Prediction-Powered Inference, PPI)框架,以便在后续分析中优先考虑高置信度的值,同时利用Lupine填补后的数据提高统计效力。其次,如何进一步优化Lupine的训练过程,以适应更复杂的数据集和不同的质谱技术。例如,通过引入更复杂的神经网络结构或调整超参数设置,可能能够进一步提高填补的精度和效率。
### 5. 数据来源与开源实现
Lupine的数据来源于多个公开的蛋白质组学数据集,包括来自CPTAC的TMT数据和来自PRIDE的ProCan和MoA数据。这些数据集涵盖了不同类型的癌症以及不同的质谱采集策略,为Lupine的训练和验证提供了丰富的背景信息。此外,Lupine的代码和填补后的数据均以开源形式发布,方便研究者进行二次开发和应用。Lupine的Python包可在GitHub上获取,并且附带了详细的文档和使用指南,使得其在蛋白质组学研究中的应用更加便捷。
总之,Lupine作为一种基于深度学习的蛋白质组学数据填补方法,不仅在填补缺失值方面表现出色,还能提高差异丰度分析的准确性,并为研究者提供有价值的嵌入表示。其联合训练策略和集成模型设计,使得Lupine在处理大规模、多批次的质谱数据时具有显著优势。未来,随着深度学习技术的不断发展和蛋白质组学数据的持续积累,Lupine有望成为蛋白质组学研究中的重要工具,为揭示疾病机制和发现潜在治疗靶点提供有力支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号