UniScore:基于多搜索引擎整合的肽段鉴定统一化评分系统及其在深度蛋白质组学中的应用

【字体: 时间:2025年06月17日 来源:Molecular & Cellular Proteomics 6.1

编辑推荐:

  针对DDA模式下LC/MS/MS数据分析中多搜索引擎结果整合难题,日本研究团队开发了UniScore统一评分系统。该方法仅利用产物离子匹配信息,通过计算b/y离子总数与匹配序列片段数之和实现高效重评分,在1% FDR标准下较传统搜索引擎(Comet/X!Tandem/Mascot/MaxQuant)提升28.5% PSM识别率,尤其适用于磷酸化肽段(提升73.2%)和嵌合谱图分析,为大规模蛋白质组数据整合提供低计算成本的解决方案。

  

在蛋白质组学研究的浪潮中,LC/MS/MS技术已成为解析复杂生物样本的核心工具。然而随着数据依赖性采集(DDA)模式产生海量质谱数据,如何整合不同搜索引擎(如Mascot、MaxQuant等)的鉴定结果,并平衡鉴定精度与计算效率,始终是困扰研究者的难题。现有深度学习方法虽能提升预测准确性,但依赖大规模计算资源,且对实验条件敏感。针对这一瓶颈,日本京都大学Yasushi Ishihama团队在《Molecular 》发表研究,提出名为UniScore的创新评分系统。

研究团队采用三阶段技术路线:首先从jPOST/PRIDE数据库获取HeLa细胞DDA数据集,经MaxQuant预处理生成mgf文件;随后通过Comet/X!Tandem/Mascot/MaxQuant并行搜索,提取产物离子匹配信息;最终构建UniScore算法——将b/y离子匹配数与序列连续匹配片段数简单相加,结合靶向-诱饵策略(TD)控制1%假阳性率(FDR)。

方法与优化
通过系统比较不同参数组合,确定最优条件为:100 Th窗口内选取12个单电荷峰,不计入双电荷离子。算法验证显示,简单加权的UniScore(79,725 PSMs)优于Morpheus评分(77,152 PSMs),与Percolator机器学习结果(81,096 PSMs)相当。值得注意的是,直接合并UniScore与Generic评分可获得最高PSM数(81,709),但团队为保持方法稳健性未采用该策略。

嵌合谱图分析
针对DDA中14%的前体离子共分离现象,研究证实UniScore能有效处理嵌合谱图。在68,829张谱图中,12.6%被鉴定为嵌合谱,其中仅0.7%含≥3个PSMs。关键发现是:多数嵌合谱的产物离子重叠率<50%,说明搜索引擎已自动过滤低质量匹配,验证了UniScore直接应用的可行性。

深度蛋白质组应用
在Bekker-Jensen的HeLa细胞46组分数据中,UniScore使PSM识别率提升20%,蛋白组覆盖数达11,292个。特别在SARS-CoV-2感染的Caco-2细胞磷酸化分析中,UniScore鉴定出73.2%更多磷酸肽,且新增肽段平均长度显著增加(p<0.01)。这种对长肽段的偏好性被证实与Mascot离子评分趋势一致,反映数据库搜索空间的自然缩减。

结论与展望
该研究建立的UniScore系统突破性地实现了三个目标:① 仅依赖产物离子信息即可标准化多引擎输出;② 计算效率较深度学习提升百倍;③ 兼容嵌合谱分析无需额外过滤。尽管在最新引擎(如Sage/MSFragger)对比中仍有优化空间,但其"轻量级"特性特别适合资源有限的实验室开展大规模数据重分析。未来拓展方向包括数据非依赖性采集(DIA)模式适配,以及跨平台(Orbitrap/Q-TOF)数据整合,为蛋白质组学标准化分析提供新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号