基于课程学习深度学习的宏蛋白质组学肽段鉴定增强方法

【字体: 时间:2025年10月09日 来源:Nature Communications 15.7

编辑推荐:

  为解决宏蛋白质组学中因庞大且不完整的蛋白质数据库导致的肽段鉴定难题,研究人员开发了基于深度学习的PSM过滤工具WinnowNet。该方法采用课程学习策略,利用Transformer和CNN架构处理无序PSM数据,在同等错误发现率下比Percolator、MS2Rescore和DeepFilter等主流工具鉴定出更多真实肽段,并在人类肠道微生物组中发现更多与饮食健康相关的生物标志物,为个性化医疗提供有力支持。

  
微生物组研究正在彻底改变我们对生态系统中微生物功能的理解。宏蛋白质组学作为这一领域的重要工具,通过直接分析微生物群落表达的蛋白质,为我们提供了洞察微生物活性功能的独特窗口。然而,宏蛋白质组学研究面临着一个关键挑战:从宏基因组衍生的蛋白质数据库往往规模庞大且不完整,导致肽段鉴定准确率受限。这些数据库通常包含比单一生物体多得多的序列,给肽段-谱匹配(PSM)过滤带来了计算瓶颈。
传统PSM过滤方法虽然能够提取PSM特征如电荷状态和质量误差,但可能无法充分利用测量谱和理论谱中的全部信息。近年来,虽然出现了像DeepFilter这样的深度学习架构来自动学习测量谱和理论谱之间的匹配模式,但仍存在局限性,如仅使用单一数据库搜索引擎的数据进行训练,以及输入格式导致的推理速度较慢等问题。
为了应对这些挑战,北德克萨斯大学、华中农业大学和俄克拉荷马大学的研究团队开发了WinnowNet——一种基于深度学习的PSM过滤新方法,该研究成果已发表在《Nature Communications》上。这项研究不仅解决了宏蛋白质组学中的肽段鉴定难题,还为微生物组功能研究提供了更强大的分析工具。
研究人员主要采用了以下几种关键技术方法:使用来自ProteomeTools研究的实验验证PSM数据集和多个搜索引擎生成的PSM候选构建大规模多样化训练数据集;采用课程学习策略从简单到复杂样本训练模型;利用CNN和Transformer架构的顺序不变特性减小表示矩阵大小;在十二个宏蛋白质组数据集上进行基准测试,使用诱饵蛋白和外来蛋白策略进行性能评估;将WinnowNet集成到Sipros-Ensemble、FragPipe、Peaks Studio和AlphaPept等流行蛋白质鉴定流程中。

基准数据集和评估指标

为了全面评估性能,研究人员在十二个宏蛋白质组数据集上对WinnowNet进行了基准测试。这些数据集包括来自合成微生物混合物、人工组装的模拟群落以及三个不同微生物群落的数据集,每个数据集都以质谱和蛋白质数据库的复杂性增加为特征。所有数据集都使用目标-诱饵策略,并在1%错误发现率(FDR)下评估PSM、肽段和蛋白质水平的鉴定结果。
为了确保准确的性能比较并在蛋白质鉴定中减轻过拟合,研究人员在数据库搜索中引入了诱饵蛋白,遵循许多先前研究中提出的方法。诱饵蛋白是通过随机 shuffling 目标蛋白序列创建的假目标序列,与目标-诱饵策略一起使用。数据库中诱饵蛋白与原始目标蛋白的有效比例设置为1:1。

与最先进过滤算法的性能比较

研究人员将WinnowNet与六种领先的过滤算法进行了比较:Percolator、Q-ranker、PeptideProphet、iProphet、MS2Rescore和DeepFilter。评估使用来自三个独立数据库搜索引擎(Comet、Myrimatch和MS-GF+)的PSM候选进行。
性能评估采用了"基准数据集和评估指标"部分描述的诱饵方法。蛋白质鉴定仅在得到至少一个独特肽段支持时才被报告。在1% FDR下,海洋、人类肠道、土壤和模拟数据集的鉴定结果总结显示,两种WinnowNet变体——基于自注意力和基于CNN的架构——在所有数据集和三个独立数据库搜索引擎中都在PSM、肽段和蛋白质水平上获得了最高鉴定数量。
在海洋数据集中,WinnowNet平均比MS2Rescore多鉴定出12.6%的PSM、12.4%的肽段和9.3%的蛋白质。在人类肠道数据集(测试了最广泛的MS/MS谱和蛋白质数据库的宏蛋白质组)中,WinnowNet比MS2Rescore平均增加了8.0%的PSM、6.8%的肽段和5.7%的蛋白质。在土壤数据集中,WinnowNet在1% FDR下平均比MS2Rescore多鉴定出9.4%的PSM、11.6%的肽段和7.6%的蛋白质。
WinnowNet在模拟数据集上也表现出强劲性能,这些数据集包含30种具有均匀蛋白质含量的人工微生物复合物。在这些数据集上,WinnowNet在1% FDR下平均增加了9.1%的PSM、9.3%的肽段和7.5%的蛋白质鉴定。
与先前的方法DeepFilter相比,WinnowNet展示了持续的改进:在海洋数据集中多鉴定出11.9%的PSM、10.0%的肽段和6.9%的蛋白质;在土壤数据集中,PSM平均增加7.8%,肽段增加7.7%,蛋白质增加4.8%;在模拟群落中,PSM改进4.3%,肽段改进4.8%,蛋白质改进2.9%。即使在复杂的人类肠道数据集中,WinnowNet相对于DeepFilter也平均获得了3.4%的PSM、3.8%的肽段和4.1%的蛋白质增益。

WinnowNet集成蛋白质鉴定流程的性能评估

研究人员将基于自注意力的WinnowNet集成到四个流行的蛋白质鉴定流程中:Sipros-Ensemble平台、FragPipe、Peaks Studio 12.5和AlphaPept。评估在四个基准数据集(Marine3、Soil3、P3和Human Gut)上进行。
结果显示,在所有四个数据集和流程中,集成WinnowNet都导致PSM、肽段和蛋白质鉴定水平的显著改进。例如,在PSM水平上,Sipros-Ensemble的鉴定从61,190增加到66,432(改进8.6%),FragPipe从47,970增加到53,276(11.1%),Peaks从46,727增加到52,789(13.0%),AlphaPept从43,791增加到49,841(13.8%)。在肽段水平上,Sipros-Ensemble从40,519增加到43,071(6.3%),FragPipe从25,658增加到31,769(23.8%),Peaks从24,864增加到30,091(21.0%),AlphaPept从23,895增加到29,857(25.0%)。在蛋白质水平上也观察到显著增益;例如,在Marine3中,蛋白质鉴定从Sipros-Ensemble的9,500增加到10,416(9.6%),FragPipe从9,909增加到10,277(3.7%),Peaks从9,001增加到9,327(3.6%),AlphaPept从8,796增加到8,426(4.4%)。
为了模拟真实世界的分析条件进行基准测试,研究人员构建了一个复合蛋白质数据库,将来自模拟微生物培养物(30个物种)的蛋白质与来自人类肠道微生物组的27个外来物种的诱饵蛋白质结合。使用诱饵策略估计FDR,并计算错误匹配率(FMR),定义为在1% FDR下所有接受目标中错误目标鉴定的比例。
鉴定结果和FMR值显示,所有原始和WinnowNet增强的流程都表现出稳健的性能,在PSM和肽段水平上始终将FMR保持在1%以下。值得注意的是,WinnowNet的集成导致所有流程的鉴定准确性持续改进。

人类肠道宏蛋白质组 taxonomic 谱分析

为了研究仅由WinnowNet(基于CNN)鉴定的蛋白质的生物学意义,研究人员分析了人类肠道宏蛋白质组样本中这些蛋白质的 taxonomic 谱。
在 taxonomic 分析中,研究人员观察到WinnowNet鉴定出了许多基因计数低的肠道微生物。每个物种的平均归一化基因数量为24.27%,如蛋白质数据库中所注释。值得注意的是,33个物种的基因丰度低于这个平均值,其中4个物种的基因丰度低于2%。有趣的是,这四个物种被认为是人类肠道微生物组的常见组成部分。

计算时间

表1总结了基于CNN和基于自注意力的WinnowNet模型与其他过滤算法在各种数据集上的计算时间。基于CNN的WinnowNet的轻量级架构从其显著减少的参数数量中可见,仅包含DeepFilter和基于自注意力的WinnowNet中参数的22.2%和31.5%。这导致更快的训练和推理时间,使其成为PSM重新评分的有效解决方案。

研究结论与意义

WinnowNet作为一种新型的PSM重新评分框架,通过深度学习技术显著提高了宏蛋白质组学中的肽段鉴定准确性。该研究的创新之处在于采用了课程学习策略,使模型能够从简单到复杂的样本中逐步学习,从而提高了模型的泛化能力和收敛速度。
该方法不仅在技术层面取得了突破,更重要的是在生物学应用方面展现了巨大潜力。通过提高肽段鉴定的准确性,WinnowNet能够发现更多低丰度微生物的蛋白质,这对于理解微生物组的功能组成和生态角色具有重要意义。特别是在人类肠道微生物组研究中,WinnowNet鉴定出的与饮食和健康相关的生物标志物,为个性化医疗和精准营养研究提供了新的工具和见解。
研究的另一个重要贡献是证明了WinnowNet可以直接应用于不同的宏蛋白质组样本而无需微调,这大大提高了其实用性和适用性。研究人员将WinnowNet集成到多个流行的蛋白质鉴定流程中,都取得了一致的改进效果,这表明该方法具有良好的兼容性和稳定性。
尽管WinnowNet目前作为后处理工具依赖于传统数据库搜索引擎预筛选的候选,但研究人员展望未来将其扩展为全面的数据库搜索引擎。这将需要处理MS-based蛋白质组学固有的大搜索空间的创新,以及计算效率特别是推理速度的优化。
总之,WinnowNet代表了宏蛋白质组学数据分析的重要进步,通过深度学习技术的巧妙应用,解决了该领域长期存在的肽段鉴定挑战,为微生物组功能研究和临床应用提供了更可靠、更高效的分析工具。这项研究不仅推动了 computational 蛋白质组学的发展,也为理解复杂微生物系统的功能特性开辟了新的途径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号