多阶段搜索:基于蛋白质组学与基因组学联用的病原体无偏分类分析迭代工作流程

【字体: 时间:2025年06月06日 来源:Journal of Proteome Research 3.8

编辑推荐:

  为解决病原体诊断中基因组和蛋白质组参考数据库存在物种偏向性及不完整性问题,研究人员开发了MultiStageSearch工作流程。该研究通过多步骤数据库搜索策略,结合蛋白质组和基因组数据,实现了高精度的菌株水平分类鉴定。结果表明,该方法能有效克服参考数据库偏差,准确识别未纳入现有分类的病原体菌株,为病原体研究和诊断提供了更灵活可靠的分析工具。

  

在公共卫生领域,病毒和细菌病原体的快速准确检测至关重要。然而,当前基于基因组学(如RT-PCR)的方法需要预先了解目标病原体信息,而质谱(MS)蛋白质组学虽能提供非靶向检测,却受限于参考数据库的覆盖偏差——现有数据库往往过度代表特定病原体或模式生物,导致鉴定结果失真。例如,在SARS-CoV-2大流行期间,基因组学虽是病毒监测的"金标准",但蛋白质组学通过定量检测病毒特异性蛋白,在磷酸化蛋白质组学和蛋白互作研究中展现了独特优势。

针对这一挑战,德国Robert Koch研究所等机构的研究团队开发了MultiStageSearch——一种基于Snakemake的多步骤蛋白质组-基因组联合分析流程。该工作流程通过迭代搜索策略,先利用通用蛋白质组数据库推断潜在物种,再构建定制的六读框翻译(six-frame translation)基因组数据库,最终实现菌株水平的高精度分类。研究团队在病毒(如Cowpox、Hendra病毒)和细菌(铜绿假单胞菌)样本中验证了该方法,结果显示其菌株鉴定准确率显著优于TaxIt和PepGM等现有工具。相关成果发表于《Journal of Proteome Research》。

关键技术包括:1)基于SearchGUI/X!Tandem的靶向-诱饵数据库搜索;2)NCBI基因组数据自动化查询与去冗余处理;3)开放阅读框(ORF)聚类算法降低数据库偏差;4)基于MAFFT/IQ-TREE的系统发育树构建;5)创新性引入数据库适用性评估指标(database suitability),通过Novor生成de novo
肽段验证参考数据库质量。

探索数据库偏差
通过分析NCBI蛋白质数据库中人类疱疹病毒1型的菌株分布,发现商业化的"17型"菌株蛋白条目数(670条)远超实验样本"F型"(25条),证实了数据库存在系统性偏向。MultiStageSearch通过优化查询策略,使菌株覆盖更均衡。

性能对比
在9种病原体基准测试中,MultiStageSearch对牛痘病毒(Cowpox)、亨德拉病毒(Hendra)和铜绿假单胞菌(P. aeruginosa)的菌株鉴定准确率达100%,而PepGM因依赖NCBI分类学错误识别了疱疹病毒"17型"。值得注意的是,铜绿假单胞菌"CCUG 51971"菌株未被NCBI分类收录,但本研究仍成功鉴定。

临床样本验证
在4例儿童胃肠病毒临床样本中,首次搜索即准确识别诺如病毒GII型(Norovirus GII),其基因组在NCBI中虽含46,693条记录,但通过肽段相似性分析发现主要流行株GII.4和GII.17的检测信号明确。

数据库适用性评估
牛痘样本的定制蛋白质组数据库适用性达94.73%,显著高于通用RefSeq Viral数据库(75.56%)。而疱疹病毒样本因低质量光谱导致参考数据库适用性仅59.98%,但后续蛋白质组学搜索仍保持95%以上适用性,证明方法鲁棒性。

该研究突破性地将基因组学资源整合到蛋白质组学分析中,通过动态构建定制化数据库解决了参考数据偏差问题。对于SARS-CoV-2等快速变异的病毒,研究团队还开发了"COVID模式",利用Pango-lineage系统处理数百万条基因组记录。尽管禽支气管炎病毒(Avian Bronchitis)因菌株间肽组高度相似仍难区分,但该方法为未知病原体鉴定提供了新范式。未来整合GISAID、Nextstrain等实时进化数据库,可进一步拓展其在疫情监测中的应用价值。这项技术不仅提升了临床诊断精度,也为研究病原体进化与宿主互作提供了新工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号