《Nature Communications》:DiNovo enables high-coverage and high-confidence de novo peptide sequencing via mirror proteases and deep learning
编辑推荐:
为解决当前单蛋白酶组学实验中肽段碎裂不完全与蛋白质酶解不充分导致的从头肽段测序覆盖度与可信度低的问题,研究人员开展了基于镜像蛋白酶互补性与深度学习算法的DiNovo软件系统研究。该研究利用多对镜像蛋白酶(如trypsin/LysargiNase、Lys-C/Lys-N)产生互补的质谱图,结合无需预测序的镜像谱图识别算法、深度学习与图论测序算法以及靶向-诱饵映射(target-decoy mapping)评估方法,显著提升了肽段测序的覆盖度与可信度。结果表明,相较于传统单蛋白酶策略,DiNovo使高可信度氨基酸测序数量提升2~3倍,且与数据库搜索方法在相同错误发现率(FDR)下鉴定的蛋白质数量相当,展现出作为肽段鉴定替代方案的巨大潜力。
在蛋白质组学研究领域,解读串联质谱(tandem mass spectrometry)数据以确定肽段序列是关键一步。传统方法主要依赖数据库搜索(database search),但这种方法无法鉴定未知物种、新抗原(neoantigens)或合成肽段等不存在于已知数据库中的序列。因此,不依赖先验数据库的从头肽段测序(de novo peptide sequencing)技术显得尤为重要。近年来,深度学习(deep learning)的引入显著提升了测序准确性,但现有方法仍面临两大根本性挑战:一是肽段在质谱仪中碎裂不完全,导致碎片离子(fragment ions)覆盖度低,测序结果不完整或不准确;二是常用蛋白酶(如胰蛋白酶trypsin)的酶解效率不足,导致许多肽段无法被有效切割和检测。尽管已有算法尝试预测缺失的离子,但这些预测缺乏实验证据支持,难以验证。此外,当前对从头测序结果的评估严重依赖于数据库搜索获得的肽段-谱图匹配(PSM, peptide-spectrum match)来构建基准数据集,这阻碍了从头测序与数据库搜索两种方法之间的直接性能比较。
为了突破这些瓶颈,一项发表于《自然-通讯》(Nature Communications)的研究提出了一个创新的解决方案。研究人员认识到,镜像蛋白酶(mirror proteases)技术是提高串联质谱碎片离子覆盖度的有力手段。该技术使用两种蛋白酶分别在特定氨基酸(如赖氨酸K和精氨酸R)的C端和N端切割蛋白质,产生共享相同中间序列但切割位点相反的“镜像肽段”(mirror peptides)。例如,胰蛋白酶(trypsin)在K/R的C端切割,而赖氨酸精氨酸酶(LysargiNase)在K/R的N端切割。这样产生的镜像肽段所对应的质谱图(即镜像谱图,mirror spectra)具有高度互补性:一种谱图中缺失的碎片离子(如b离子)很可能在另一种谱图中出现(如y离子)。然而,已有的镜像蛋白酶测序工具(如pNovoM)存在明显缺陷:缺乏公开可用的、支持完整工作流程(包括镜像谱图识别和测序)的软件;仅使用一对镜像蛋白酶,未能解决不完全酶解问题;其镜像谱图识别依赖耗时的预测序,且缺乏有效的质量控制标准;此外,深度学习技术尚未被应用于镜像肽段的测序中。
针对这些问题,研究团队开发了名为DiNovo的综合性软件系统。DiNovo的核心在于充分利用多对镜像蛋白酶的互补性,并结合多种先进算法,旨在实现高覆盖度、高可信度的从头肽段测序。其工作流程主要包含三个关键步骤,并集成了多个创新算法模块。
首先,蛋白质样品被一对或多对镜像蛋白酶(本研究使用了两对:trypsin/LysargiNase和Lys-C/Lys-N)酶解,然后进行液相色谱-串联质谱(LC-MS/MS)分析。其次,利用新开发的MirrorFinder算法识别来自同一肽段的镜像谱图对。该算法不依赖于对单个谱图的预测序,而是直接利用谱图内部信息(前体质量、碎片离子质量和强度)进行匹配,并通过计算匹配分数来评估一对谱图成为镜像谱图的可能性。更重要的是,它采用了靶向-诱饵(target-decoy)策略来估计和控制镜像谱图识别的错误发现率(FDR),为结果提供了质量控制。最后,对识别出的镜像谱图进行肽段测序。DiNovo提供了两种可选的测序算法:一是基于深度神经网络的MirrorNovo,它利用设计的神经网络架构捕获镜像谱图的峰特征并预测氨基酸概率;二是基于图论和动态规划的pNovoM2(pNovoM的改进版)。MirrorNovo精度更高但需要GPU运算,而pNovoM2在CPU上运行更快。此外,对于那些未成功配对的单个谱图,DiNovo也使用其内置的单蛋白酶测序模型GCNovo(Denovo-GCN的更新版)进行测序,以最大化序列覆盖度。
为了公正地评估从头测序结果并与数据库搜索横向比较,本研究提出了靶向-诱饵映射(TD mapping)方法。该方法将所有从头测序得到的肽段序列映射到一个由正向和反向(或重排)蛋白质序列构成的靶向-诱饵数据库上,通过统计成功映射到靶向和诱饵序列上的肽段数量来估算FDR。这种方法摆脱了对数据库搜索结果的依赖,使得从头测序首次能够像数据库搜索一样,在可控的错误率下进行肽段和蛋白质鉴定。
研究人员使用大肠杆菌(E. coli)和酵母(yeast)的蛋白酶体样本,经两对镜像蛋白酶消化后产生的八个数据集,全面评估了DiNovo的性能。分析表明,镜像谱图策略极大地提高了碎片离子覆盖度。镜像谱图的平均离子覆盖度高达98.4%(大肠杆菌)和98%(酵母),而单个谱图的平均覆盖度仅为90.2%和89.7%。这为实现更完整的肽段测序奠定了坚实基础。
与广泛使用的单蛋白酶测序策略相比,DiNovo展现出了压倒性优势。研究人员将DiNovo与目前最流行的商业软件PEAKS内置的算法GraphNovo进行了对比。结果显示,在使用全部四种蛋白酶(Try, Lys, LysC, LysN)的综合结果上,DiNovo比GraphNovo多测序了133.8%(大肠杆菌)和111.9%(酵母)的高可信度肽段(指达到100%碎片离子覆盖度的肽段),对应的氨基酸覆盖度高出43.3%和35.9%,蛋白质覆盖度高出15.2%和10.2%。与单独使用胰蛋白酶(Try)的传统策略相比,DiNovo使用两对镜像蛋白酶的优势更为惊人,高可信度氨基酸测序数量提升了153.8%至194.5%,高可信度蛋白质鉴定数量提升了28.7%至34.3%。值得注意的是,仅使用一对镜像蛋白酶(Try+Lys)的DiNovo,其性能就已优于或至少相当于GraphNovo使用全部四种蛋白酶的综合结果,这充分证明了镜像谱图对肽段测序的巨大贡献。
为了进一步证明DiNovo的先进性,研究团队将其与多种主流从头测序算法进行了比较,包括pNovo3、PointNovo、Casanovo(及其大规模数据训练版本CasanovoV2)以及DiNovo内置的单蛋白酶模型GCNovo。在所有对比中,DiNovo在肽段数量、氨基酸覆盖度和蛋白质覆盖度三个层面上均显著优于所有竞争对手。例如,与重新训练的单蛋白酶模型GCNovo*相比,DiNovo平均多测序了138.6%(大肠杆菌)和116.7%(酵母)的肽段。更重要的是,DiNovo覆盖了其他算法所测序的绝大部分高可信度氨基酸(96.4%–98.6%),同时还额外测序了39.4%–76.1%的独特氨基酸。这表明DiNovo不仅具有更高的灵敏度,其测序结果也高度可靠。
最引人注目的发现来自于DiNovo与传统数据库搜索方法的直接比较。在将FDR统一控制在1%的条件下,DiNovo鉴定的肽段数量超过了所有三个数据库搜索引擎(pFind、MSFragger、MS-GF+)。尽管镜像肽段存在序列冗余,但总体而言,DiNovo鉴定到的氨基酸和蛋白质数量与各搜索引擎的结果相当。具体来说,DiNovo覆盖了pFind所鉴定氨基酸的85.4%(大肠杆菌)和73.7%(酵母),覆盖了其鉴定蛋白质的92.4%和91%。与MSFragger和重新训练的MS-GF+*的结果也有高度的重叠。这表明,得益于镜像蛋白酶策略和强大的DiNovo软件,从头测序有望成为传统数据库搜索方法在实际应用中的一个强大补充,甚至替代方案。此外,分析还发现,当前的数据库搜索引擎对C端蛋白酶(如胰蛋白酶)消化肽段的鉴定更擅长,而对N端蛋白酶消化肽段的鉴定能力则不如DiNovo,提示了现有搜索工具有进一步的优化空间。
研究还对DiNovo内置的两种镜像谱图测序算法MirrorNovo和pNovoM2进行了比较。MirrorNovo基于深度学习,在GPU上运行,测序的氨基酸数量多于基于图论的pNovoM2及其前身pNovoM。而pNovoM2在CPU上运行速度极快。在1% FDR阈值下,超过99%被两种算法同时测序的镜像谱图对产生完全一致的序列,进一步证明了测序结果和质控方法的可靠性。
综上所述,本研究开发的DiNovo软件系统成功解决了当前单蛋白酶从头肽段测序面临的覆盖度与可信度不足的核心难题。通过创新性地整合多对镜像蛋白酶策略、无需预测序的镜像谱图识别算法、深度学习与图论双模测序算法以及靶向-诱饵映射评估体系,DiNovo实现了接近完全的碎片离子覆盖,并获得了远超现有单蛋白酶测序工具的优异性能。其测序结果在相同错误发现率下与主流数据库搜索方法旗鼓相当,首次在实践层面证明了从头测序作为肽段和蛋白质鉴定独立方法的巨大潜力。DiNovo不仅是首个支持镜像蛋白酶质谱数据全流程分析的开源软件套件,其提出的评估框架也为该领域的性能比较和质控设立了新标准。这项研究标志着从头肽段测序技术向着更高可靠性、更广泛应用迈出了关键一步,将极大推动蛋白质组学在发现新抗原、未知物种蛋白等前沿领域的探索。