Carafe:基于DIA数据深度学习优化的原位谱库生成新方法,提升数据非依赖采集蛋白质组学分析效能
《Nature Communications》:Carafe enables high quality in silico spectral library generation for data-independent acquisition proteomics
【字体:
大
中
小
】
时间:2025年11月07日
来源:Nature Communications 15.7
编辑推荐:
本研究针对数据非依赖采集(DIA)蛋白质组学分析中,传统谱库因依赖数据依赖采集(DDA)数据而存在碎片离子强度和保留时间(RT)预测偏差的问题,开发了Carafe工具。该工具通过直接训练深度学习模型于DIA数据,结合双路径干扰峰掩蔽策略,显著提升了碎片离子强度和RT预测精度。实验表明,Carafe生成的谱库在多种仪器平台(如TripleTOF 5600、Orbitrap Astral)上均能提高肽段检测数量(最高提升38.0%),且通过Skyline集成实现了用户友好化。该研究为DIA数据分析提供了更精准、高效的谱库构建方案,推动了蛋白质组学的标准化应用。
在蛋白质组学研究中,数据非依赖采集(Data-Independent Acquisition, DIA)技术因其高重复性和系统性采样能力,逐渐成为定量分析的重要策略。然而,DIA数据分析高度依赖高质量的谱库,而现有谱库多基于数据依赖采集(Data-Dependent Acquisition, DIA)数据生成或通过DDA训练的模型预测,导致碎片离子强度和保留时间(Retention Time, RT)存在系统性偏差。这种偏差主要源于DDA与DIA在碰撞能量优化、液相色谱(Liquid Chromatography, LC)条件等方面的差异,限制了DIA数据的分析精度和覆盖范围。
为解决这一问题,美国华盛顿大学基因组科学系的Bo Wen等研究者在《Nature Communications》上发表了题为“Carafe enables high quality in silico spectral library generation for data-independent acquisition proteomics”的研究。他们开发了Carafe工具,通过直接利用DIA数据训练深度学习模型,生成实验特异性的高质量计算机谱库,显著提升了肽段检测能力和定量准确性。
研究团队基于AlphaPeptDeep框架,开发了支持峰值掩蔽的Transformer模型预测碎片离子强度,以及混合卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)预测RT。训练数据来自单次DIA运行(如人细胞系样本),通过DIA-NN或Skyline检测肽段,并采用双路径策略(谱中心法和肽中心法)识别干扰峰,在训练中掩蔽共享峰以提升模型鲁棒性。生成的谱库支持多物种(如人、酵母、宏蛋白质组),并通过Skyline集成简化了使用流程。
通过对比四种DIA数据集(包括全球蛋白质组、磷酸化蛋白质组和宏蛋白质组数据),Carafe微调后的模型在碎片离子强度预测的斯皮尔曼相关系数中位数提升0.05,且79.60%的肽段相关性改善。RT预测模型在线性相关性(R2 > 0.98)和梯度一致性方面均优于DDA预训练模型,尤其在晚洗脱肽段中表现显著。
双路径掩蔽方法(谱中心法检测多肽共享峰,肽中心法通过碎片离子色谱图相关性识别干扰)可覆盖48.4%的共享峰,其中肽中心法贡献94.9%。掩蔽后,非干扰峰的预测相关性提升至0.82,而双方法均标记的干扰峰相关性仅0.32。
在DIA-NN分析中,Carafe全微调谱库(MS2/RT)相比DDA预训练模型和DIA-NN内置模型,肽段前体检测数量分别提升5.1-38.0%和2.6-27.1%。部分微调(仅MS2或仅RT)亦优于DDA模型,但全微调效果最优。
通过诱饵数据库策略评估,Carafe谱库在1% FDR阈值下的错误发现比例(1.00-1.09%)与DDA模型相当,且磷酸化肽段位点错误定位率为0%,表明无数据泄漏或过拟合风险。
与EncyclopeDIA生成的GPF(气相分级)DIA色谱图库相比,Carafe谱库在肽段检测数量上提升3.2-18.5%,且Carafe缩减版谱库(仅含GPF检测肽段)仍优于Prosit+GPF库,证明其预测质量更高。
在LFQbench数据集中,Carafe谱库的定量变异系数(CV)中位数更低,且比例估计(如人1:1、酵母10:1)准确;在EGF刺激的HeLa磷酸化数据集分析中,Carafe额外识别出20%的差异表达磷酸肽,包括7个EGFR磷酸化位点(DIA-NN仅识别4个),且结果与生物学预期一致。
Carafe通过直接利用DIA数据微调深度学习模型,解决了传统谱库因DDA与DIA数据差异导致的预测偏差问题。其双路径干扰峰掩蔽策略有效提升了模型在复杂DIA光谱中的鲁棒性,而Skyline集成降低了使用门槛。该工具在多种仪器平台和样本类型(如磷酸化蛋白质组)中均表现出优越的检测能力和定量准确性,为DIA蛋白质组学的标准化和推广应用提供了关键技术支持。未来,Carafe有望扩展至更多仪器平台(如timsTOF),进一步推动蛋白质组学研究的深度与广度。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号