
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Transformer的半自回归框架TSARseqNovo:高速精准的从头肽段测序新方法
【字体: 大 中 小 】 时间:2025年02月15日 来源:Communications Biology 5.2
编辑推荐:
中国农业大学与国家计量科学研究院团队开发了基于Transformer的TSARseqNovo模型,通过半自回归解码器(SAR)和掩码优化解码器(MR)实现多氨基酸并行预测,在Nine-Species等数据集上肽段预测精度提升11.4%,速度较CasaNovo提升2倍,为糖蛋白组学等复杂样本分析提供了高效工具。
在质谱(MS)为基础的蛋白质组学研究中,从头肽段测序(de novo peptide sequencing)技术犹如一把"分子解码器",能够不依赖数据库直接从质谱数据中解析肽段序列。这项技术在抗体发现、肿瘤新抗原筛选等领域具有不可替代的价值。然而传统方法面临双重困境:像PEAKS这样的动态规划算法计算效率低下,而DeepNovo等早期深度学习模型对长肽段的预测精度不足,难以满足高通量蛋白质组学研究需求。
中国农业大学信息与电气工程学院联合国家计量科学研究院先进测量技术中心的研究团队,在《Communications Biology》发表了突破性解决方案。他们开发的TSARseqNovo模型创新性地融合了MS PeakFusion嵌入编码和半自回归解码技术,通过并行预测k个氨基酸残基(amino acid residues)将测序速度提升至239 spectra/s,同时借助掩码优化(MR)解码器使长肽段(>25AA)预测精度达到19.3%,较π-HelixNovo提升近4倍。
关键技术包括:1) 融合局部-全局(LG)特征的MS PeakFusion嵌入技术;2) 支持多氨基酸并行输出的半自回归(SAR)解码架构;3) 动态阈值控制的掩码优化(MR)机制;4) 九物种交叉验证(Nine-Species)和糖蛋白组数据集(MSV000083710)的基准测试。
<结果部分>结果部分>
通过T-net技术将m/z和强度特征与LG谱特征融合,形成的768维嵌入向量使模型能捕捉到传统正弦编码忽略的峰间关联性。如图1所示,这种融合嵌入经Transformer编码后,在酵母数据集上氨基酸召回率达到83.5%。

<解码过程>解码过程>
如图2所示,SAR解码器采用松弛因果掩码,将长度为M的肽段分为?M/k?组并行处理。当k=3时,在保持78.1%氨基酸精度的同时,速度达到CasaNovo的2倍。MR解码器则通过动态调整掩码概率α(训练初期α=0.2,后期α=0.5),显著提升低置信度位点的预测准确性。

<跨数据集验证>跨数据集验证>
在糖蛋白组数据集上,TSARseqNovo的氨基酸精度达75.9%,比π-HelixNovo高4.3个百分点(图4D)。特别值得注意的是,对于含糖基化修饰的复杂肽段,其肽段预测精度达到63.9%,展现出强大的抗干扰能力。
<讨论与意义>讨论与意义>
该研究通过三大创新重新定义了从头测序的技术标准:1) 半自回归架构突破序列预测的时序瓶颈;2) 动态掩码机制实现预测结果的自校正;3) 质谱特征融合技术提升复杂修饰的识别能力。在实践层面,TSARseqNovo处理单个质谱仅需4.18ms,使得大规模临床样本分析成为可能。正如通讯作者Xinhua Dai指出,这项技术将为个性化医疗中的新抗原筛选提供前所未有的测序通量。未来通过整合更多离子类型信息,有望进一步突破50AA以上超长肽段的测序瓶颈。
生物通微信公众号
知名企业招聘