编辑推荐:
新冠疫情反复,SARS-CoV-2 不断变异。为预测病毒变异体适应性,研究人员开发 CoVFit 模型。该模型能有效预测未知变异体适应性,识别关键突变,为防控疫情、开发疫苗等提供重要支持。
新冠疫情给全球带来了巨大冲击,SARS-CoV-2 不断变异产生新的毒株,导致疫情反复爆发。这些变异毒株的传播能力和免疫逃逸能力不断增强,给疫情防控带来了极大挑战。为了更好地理解病毒的进化规律,预测新出现的高风险变异毒株,从而及时采取有效的防控措施,来自日本东京大学等多个研究机构的研究人员开展了相关研究,其成果发表在《Nature Communications》上。
研究人员开发了一种名为 CoVFit 的蛋白质语言模型,该模型基于从病毒基因组监测和免疫逃逸相关的功能突变试验中获得的基因型 - 适应性数据进行训练,旨在通过刺突(S)蛋白序列预测 SARS-CoV-2 变异体的适应性(以相对有效繁殖数Re衡量)。
研究人员运用了多种关键技术方法。首先,从 GISAID 获取 SARS-CoV-2 基因组序列及相关元数据,经筛选构建基因型 - 适应性数据集;利用公开的高通量深度突变扫描(DMS)数据,处理得到单克隆抗体(mAbs)逃避数据;还从 NCBI 数据库下载冠状病毒科 S 蛋白序列用于域适应数据集准备。在此基础上,通过对 ESM-2 模型进行域适应、多任务学习和低秩适应(LoRA)等技术微调,开发出 CoVFit 模型。
在研究结果部分:
- CoVFit 模型的引入:对 ESM-2 模型进行额外预训练得到ESMCoronaviridae,增强其对冠状病毒 S 蛋白的预测能力。利用多任务学习框架,结合基因型 - 适应性数据和 DMS 数据对模型进行微调,使 CoVFit 能预测特定 S 蛋白序列的国家特异性适应性值和逃避 mAbs 的能力12。
- CoVFit 的预测性能:在预测已知变异体适应性和逃避 mAbs 能力方面,CoVFit 表现出色,Spearman 相关系数分别达到 0.990 和 0.578 - 0.814。在对未知未来变异体的预测实验中,以不同时间点划分数据集进行训练和测试,结果显示 CoVFit 能成功预测未来变异体的适应性超过过去变异体,且对未来变异体相对适应性排名的预测具有较高准确性。不过,对于一些与训练数据差异较大的变异体,如 BA.2.86,其预测准确性会受到影响34。
- 与其他模型的性能比较:与其他预测模型相比,如PyR、LASSO、随机森林和 Light Gradient Boosting Machine(LightGBM),CoVFit 在预测未来变异体适应性方面具有更高的外推能力。去除 DMS 数据训练的模型CoVFitnoDMS在预测未来变异体适应性时性能大幅下降,表明 DMS 数据对 CoVFit 模型的有效性至关重要56。
- SARS-CoV-2 进化过程中的适应性提升事件:通过构建基于 CoVFit 的系统发育框架,研究人员分析了 SARS-CoV-2 进化过程中的适应性提升事件。在 S 蛋白发生突变的 9846 个分支中,959 个分支(9.7%)出现了显著的适应性提升,其中 542 个分支在奥密克戎(Omicron)谱系内。对关键突变的分析发现,具有较高适应性增益的突变主要集中在 S 蛋白的受体结合域(RBD),尤其是受体结合基序(RBM),这些突变往往还能增强病毒逃避体液免疫的能力78。
- F456L 替换的上下文特异性效应:某些突变在特定谱系中出现频率较高,如 F456L 替换在 XBB 谱系中显著富集。通过计算机模拟突变扫描分析发现,F456L 在 XBB 谱系中的适应性增益明显高于其他谱系。进一步分析发现,该突变对 XBB 谱系 S 蛋白的 ACE2 结合和蛋白表达具有独特的正向影响,而在其他谱系中则可能产生负面影响910。
- 基于 CoVFit 的计算机模拟 DMS 预测后续突变:研究人员开发了基于 CoVFit 的计算机模拟 DMS 方法,以 BA.2.86.1 为目标进行分析。结果显示,模型预测的具有最高适应性增益的突变位点与 BA.2.86.1 谱系中实际获得和传播的突变位点高度吻合,如 L455S、F456L 和 R346T 等突变,证明了 CoVFit 在预测病毒进化方面的有效性1112。
研究结论和讨论部分表明,CoVFit 是首个直接预测病毒适应性的机器学习模型,相比传统统计模型具有更高的外推能力,能够预测未来未知变异体的适应性,为早期预测未来流行变异体和推进病毒进化预测提供了创新方法,对疫情防控、疫苗开发和药物发现具有重要意义。然而,CoVFit 也存在一些局限性,如用于训练的适应性数据存在不确定性和偏差,模型假设相对适应性在时间上保持不变可能不成立,训练数据可能无法充分代表所有突变对适应性的影响,以及在病毒爆发早期因缺乏足够基因组数据而实用性受限等。未来可通过纳入更多病毒蛋白信息、多种 DMS 数据、扩大模型规模、数据增强和调整超参数等方法对 CoVFit 进行改进。总体而言,CoVFit 为深入了解 SARS-CoV-2 的适应性景观提供了有力工具,其方法论也可应用于预测其他病毒的适应性,为未来疫情防控奠定了重要基础。