基于系统发育树的氨基酸序列生成方法及其在未知物种蛋白质组学中的应用研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月30日 来源：Computational and Structural Biotechnology Journal 4.5

编辑推荐：

　　在自下而上蛋白质组学中，未测序基因组物种分析受限。研究人员开发基于系统发育关系生成未知物种蛋白氨基酸序列的方法，结合新评分 ICS。结果显示肽匹配率提升 5%，为微生物组等研究提供新工具。

　　在生命科学的探索中，蛋白质组学如同打开细胞功能奥秘的钥匙，然而对于未知物种的研究却常常因基因组信息缺失而举步维艰。在微生物组研究领域，这一问题尤为突出 —— 当面对复杂的微生物群落时，传统依赖已知基因组数据库的蛋白质组学方法，往往无法准确分析未测序物种的蛋白质组成，就像拿着一本残缺的字典去解读一篇陌生的文章，许多重要的生物学信息就此被遗漏。如何突破这一瓶颈，让蛋白质组学的触角延伸到更广阔的未知领域，成为科学家们亟待解决的难题。

为了攻克这一挑战，研究人员开展了一项具有创新性的研究，旨在开发一种能够利用已知物种的系统发育关系，生成未知物种蛋白质氨基酸序列的方法，从而扩展蛋白质组学数据库的物种多样性，并探索提高大规模数据库中肽段鉴定灵敏度的新策略。该研究成果发表在《Computational and Structural Biotechnology Journal》上，为未知物种的蛋白质组学研究开辟了新的路径。

研究人员主要采用了以下关键技术方法：首先是基于系统发育信息的氨基酸序列生成技术，通过构建已知物种的系统发育树，利用随机分支（rb）方法在树中插入未知物种的分支，结合位置特异性替换矩阵（PSSM）随机生成未知物种的氨基酸序列，并设置严格、最近、顺序三种进化距离条件对生成的序列进行约束；其次是质谱（MS）数据分析技术，运用 MaxQuant 和 Comet 等软件对质谱数据进行处理，通过目标 - 诱饵（TD）搜索策略结合 Percolator 重评分来鉴定肽段；最后引入了离子覆盖评分（Ion Cover Score，ICS），通过计算质谱 / 质谱（MS/MS）中预测的 b - 离子和 y - 离子与实验检测到的离子比例，评估肽谱匹配（PSM）的可靠性。

3.1 生成蛋白质序列的可重复性

研究人员以幽门螺杆菌（Helicobacter pylori）F16 菌株为模型，基于 29 个近缘菌株（pylori29）的系统发育关系，运用随机分支法生成 F16 菌株的模拟序列。通过设置不同的参数，如选取的叶片数（L）、插入的最大分支数（B）和每个分支生成的最大序列数（N），发现当采用 “最近” 进化距离条件，生成序列数较多时，模拟序列的肽段与 F16 参考序列的匹配率较高。例如，rb3_50_mk5000 生成的序列中，98.1% 的肽段与 F16 菌株匹配，相比仅使用近缘菌株数据库（pylori29）的匹配率提高了约 5%，表明该方法能够有效预测未知物种的序列。

3.2 利用 F16 质谱数据进行验证

通过对 F16 菌株的质谱数据分析发现，传统的蛋白质组学分析方法（如 MaxQuant 和 Comet）在使用大规模生成序列数据库时，肽谱匹配数（PSMs）并未随数据库扩展而增加，反而因诱饵命中增加导致灵敏度下降。而结合 Percolator 重评分的 Comet/PCL 方法，虽然 PSMs 略有增加，但参考匹配 PSMs 却减少。这一现象揭示了传统 TD 搜索在大规模数据库中面临的局限性，即评分分布的变化会导致真实肽段被误判为假阳性。

3.3 基于 ICS 的质谱数据验证

对 ICS 的分析表明，传统方法在控制假发现率（FDR<0.01）时，接受了许多低 ICS 值（<0.3）的不可靠 PSM，同时拒绝了大量高 ICS 值（≥0.5）的可靠 PSM。而直接以 ICS≥0.4 作为筛选阈值时，能够检索到传统方法拒绝的可靠 PSM，且随着数据库扩展，ICS 检索到的 PSMs 数量增加，参考匹配 PSMs 保持稳定。这说明 ICS 能够直接反映谱图匹配质量，为肽段鉴定提供了一种不依赖 TD 策略的可靠性评估指标。

3.4 PSM 可靠性考量

通过比较不同方法获得的 PSMs 及其与 F16 序列的匹配情况发现，传统方法（Comet、Comet/PCL）在数据库扩展后，总 PSMs 和参考匹配 PSMs 均减少，而基于 ICS 的方法能够保持参考匹配 PSMs 数量稳定。进一步将 ICS 纳入 Percolator 重评分参数（Comet/PCL (ICS)）后，获得的总 PSMs 和参考匹配 PSMs 数量最高，表明结合 ICS 的评分策略能够有效提高大规模数据库中肽段鉴定的可靠性和灵敏度。

3.5 PSM 假阳性率

随着数据库规模扩大，参考不匹配 PSM 率（假阳性率）显著增加。在 rb3_50_mk10 数据库中，传统 TD 方法的假阳性率随数据库中非相关肽段比例增加而上升，而 ICS≥0.4 时的假阳性率与 Comet/PCL 结果相当，但避免了 TD 策略的局限性。尽管 ICS 阈值的设定仍存在主观性，但其为降低大规模数据库中的假阳性率提供了新的思路。

3.6 蛋白质数量分析

蛋白质鉴定数量分析显示，基于 ICS 的方法在数据库扩展时能够保持蛋白质鉴定数量相对稳定，而传统方法因参考匹配 PSMs 减少导致蛋白质鉴定数量下降。这表明 ICS 通过稳定参考匹配 PSMs，能够为蛋白质鉴定提供更可靠的支持，尤其在需要大规模数据库的蛋白质组学研究中具有显著优势。

这项研究成功开发了一种基于系统发育关系的未知物种蛋白质序列生成方法，并通过引入 ICS 评分有效解决了大规模数据库中肽段鉴定灵敏度下降的问题。随机分支法通过模拟系统发育树中未知物种的进化位置，利用已知物种的序列信息生成高质量的模拟序列，为未测序物种的蛋白质组学分析提供了丰富的数据库资源，填补了传统方法在未知物种研究中的空白。ICS 评分则从质谱谱图匹配的本质出发，直接评估肽段鉴定的可靠性，突破了传统 TD 搜索依赖评分分布的局限性，为复杂数据库中的肽段鉴定提供了更客观的标准。

这些成果不仅为微生物组学、未知病原体研究等领域提供了强大的技术支持，也为蛋白质组学在疾病机制探索、药物靶点发现等健康医学领域的应用开辟了新方向。随着技术的进一步优化和软件工具的开发，该方法有望成为蛋白质组学研究中扩展数据库和提高鉴定准确性的核心技术，推动生命科学和健康医学研究向更深层次、更广范围发展。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号