基于大语言模型SARITA的SARS-CoV-2刺突蛋白S1亚基生成与进化预测研究

【字体: 时间:2025年08月05日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  本研究针对SARS-CoV-2刺突蛋白S1亚基的高变异性导致疫苗设计滞后的关键问题,开发了基于GPT-3架构的大语言模型SARITA。通过持续学习107,017条高质量序列数据,该模型能生成具有生物学合理性的全长S1亚基(686个氨基酸),在预测Delta和Omicron等变异株特征突变时准确率达97%,△△G值(结合自由能变化)符合实验阈值(-1至+1 kcal/mol),为前瞻性疫苗设计提供了新工具。

  

新冠病毒的持续变异给全球公共卫生带来严峻挑战。截至2024年11月,SARS-CoV-2已造成7.76亿感染和700万死亡。刺突蛋白(Spike)作为病毒入侵的关键"钥匙",其S1亚基通过与人类ACE2(血管紧张素转换酶2)受体结合介导感染,同时又是中和抗体的主要靶标。然而S1亚基的高突变性(尤其是受体结合域RBD)导致病毒不断"改头换面",使得疫苗和抗体疗法频频失效。Alpha、Delta到Omicron等变异株的轮番出现,暴露出传统"被动应对"策略的局限性——我们总是在病毒变异后才开始研发对应疫苗,永远落后病毒半步。

美国佛罗里达大学(University of Florida)新兴病原体研究所的研究团队意识到,要打破这种被动局面,必须开发能"预判"病毒进化方向的新工具。受自然语言处理技术的启发,他们创新性地将蛋白质序列视为"生物语言",构建了专门针对SARS-CoV-2的生成式大语言模型SARITA(SARS-CoV-2 RITA)。这项突破性研究发表在生物信息学权威期刊《Briefings in Bioinformatics》上。

研究团队采用了几项关键技术:1)基于GPT-3架构开发四种参数规模(85M-1.2B)的Transformer模型;2)从GISAID数据库筛选107,017条高质量Spike序列(2019.12-2021.2)进行持续学习;3)使用14氨基酸信号肽作为提示生成全长S1亚基;4)通过PAM30评分(序列相似性)、Levenshtein距离(序列差异)和△△G值(结合自由能变化)多维度评估生成质量;5)采用mmCSM-PPI算法预测突变对ACE2/抗体结合的影响。

质量评估:生物合理性的保证

SARITA生成的S1序列中97%达到高质量标准(长度686±10aa且无异常氨基酸),显著优于基线模型SpikeGPT2(仅3%合格)。PAM30评分中位数达5278分,表明与武汉参考株保持高度相似性。值得注意的是,模型能自主控制突变负荷,中位突变数仅14-38个,接近真实变异株水平,避免产生过度突变的非自然序列。

进化预测:预见未来的变异

在测试2021.3-2023.11的真实变异株时,SARITA展现出惊人的预见能力:98%生成序列与Delta/Omicron等变异株的Levenshtein距离(序列差异)<10,错误突变率(FMR)低至0.5%。更令人称奇的是,模型准确预测了后来出现的L212I(Omicron特征突变)、R158L(Iota变异株)等关键位点,这些突变在训练数据中完全不存在。结构分析显示这些预测突变的△△G值(-0.669至+0.852 kcal/mol)完全落在实验验证范围内。

创新突变:超越已知变异谱

随着模型规模增大,SARITA展现出更强的创新能力——XL版(1.2B参数)生成54%的全新突变(未见于训练/测试集),但这些突变的PAM30评分分布与自然突变高度一致(中位数差异仅1分)。突变密度分析显示,生成序列的变异热点与真实变异株高度吻合(均方误差6.57×10-8),尤其在RBD区域能准确捕捉免疫逃逸相关位点如G446S(影响REGN10987抗体结合)。

这项研究开创了LLM预测病毒进化的新范式。SARITA不仅能够生成结构合理的全长S1蛋白,更重要的是其展现出"预判"病毒关键突变的能力,这为疫苗设计提供了宝贵的时间窗口。模型的多尺度设计(四种参数规模)使其可适应不同计算资源条件,而持续学习框架则便于整合新出现的变异数据。未来结合AlphaFold3等结构预测工具,SARITA有望成为"数字病毒实验室",帮助科学家在变异株出现前就设计好应对方案,真正实现从"追着病毒跑"到"跑在病毒前"的战略转变。正如研究者强调的,这项技术不仅适用于SARS-CoV-2,其方法论对流感、HIV等高变异病毒的研究同样具有重要启示。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号