编辑推荐:
新冠病毒(SARS-CoV-2)突变难测,影响公共卫生防控。研究人员开展 “Deep Novel Mutation Search(DNMS)方法预测 SARS-CoV-2 刺突蛋白新突变” 研究,发现 DNMS 能有效预测,优于其他方法,为早期预警和实验研究提供支持。
自 2019 年 12 月新冠病毒(SARS-CoV-2)出现以来,它迅速在全球蔓延,成为严重威胁人类健康的重大公共卫生问题。随着病毒从大流行阶段逐渐转变为地方性流行,人们对其未来的进化方向充满担忧。SARS-CoV-2 是一种正链单链核糖核酸(+ssRNA)病毒,虽然它编码了校对机制,使其突变率相较于其他单链 RNA 病毒较低,但依然存在变异风险。而且,病毒的突变可由随机 RNA 复制错误和宿主介导的突变引起,像载脂蛋白 B mRNA 编辑催化多肽样酶(APOBECs)就会在病毒进化中发挥作用,引入高频率的 C-U 核苷酸替换。
在 SARS-CoV-2 的众多突变中,刺突表面糖蛋白(即刺突蛋白)的突变尤为关键。因为刺突蛋白通过受体结合域(RBD)介导病毒与宿主受体的附着,是中和抗体的主要靶点。许多占优势的刺突突变已被证明能提高病毒适应性,例如 D614G 突变可增强感染性和传播性,E484K 和 N439K 等突变则能逃避免疫检测。随着病毒的持续进化,未来可能会出现更多新的变异株,这些变异株可能具备更强的传播能力、更长的感染持续时间以及逃避免疫反应的能力,进而引发新的感染浪潮。因此,预测 SARS-CoV-2 未来的变异对于公共卫生至关重要。
然而,预测病毒进化是一项极具挑战性的任务。传统的湿实验室实验成本高、耗时长,难以对所有可能的蛋白质组合进行研究。深度突变扫描(DMS)等方法虽能生成大规模诱变数据集,但存在数据准确性受影响和固有噪声等问题。在计算研究方面,尽管已有许多针对 SARS-CoV-2 突变的计算和机器学习研究,但大多数研究存在局限性,例如依赖现有变异株的知识、基于单一适应性特征进行预测等,无法准确预测新的突变。
为了解决这些问题,佛罗里达大西洋大学(Florida Atlantic University)的研究人员 Magdalyn E. Elkin 和 Xingquan Zhu 开展了一项关于预测 SARS-CoV-2 刺突蛋白新突变的研究,相关成果发表在《Communications Biology》上。
研究人员主要运用了以下关键技术方法:首先,从 NCBI 数据库收集 2019 年 12 月至 2023 年 1 月的 SARS-CoV-2 核苷酸序列,经过一系列严格筛选,得到 35,943 个代表独特刺突蛋白的序列,并构建了系统发育树。其次,使用预训练的双向编码器表征来自变换器(Bidirectional Encoder Representation from Transformer,BERT)模型,即 ProtBERT 模型,该模型在 UniRef100 数据库中 2.16 亿个蛋白质上进行预训练,然后针对 SARS-CoV-2 刺突蛋白序列进行微调。最后,通过计算语法性(Grammaticality)、语义变化(Semantic Change)和注意力变化(Attention Change),并结合排名方案来预测新突变。
下面介绍具体的研究结果:
- 方法总结:研究提出了深度新突变搜索(Deep Novel Mutation Search,DNMS)方法。该方法通过对所有可能的单点氨基酸替换进行虚拟突变,利用微调后的 ProtBERT 模型计算语法性、语义变化和注意力变化,对突变进行排序,以确定最可能的未来新突变。
- 序列数据集:构建的 SARS-CoV-2 序列数据库包含 35,943 个序列,以 2022 年 1 月 1 日为截止日期,将序列分为训练集和测试集。在测试集中发现了 987 个新突变,且大多数测试集突变与奥密克戎(Omicron)毒株相关。
- 可视化序列组:通过 t-SNE 聚类展示蛋白质嵌入值和注意力权重矩阵,结果表明同一进化枝内的序列在蛋白质嵌入值和注意力权重矩阵方面聚类在一起,这说明蛋白质语言模型能够生成准确反映序列遗传编码或意义的语义表示,同时也证明了 DNMS 排名目标的有效性。
- 变体适应性分析:对比语法性、语义变化、注意力变化和 DNMS 值与病毒适应性的关系,发现语法性和 DNMS 与病毒适应性呈正相关,语义变化和注意力变化与病毒适应性呈负相关。而且,语法性与 RBD 表达的相关性更强,这表明语言模型计算结果更能反映突变对蛋白质稳定性的影响。
- 与先前工作的比较:与 Hie 等人的工作对比,调整后的 CSCS 在预测新突变时,较低的语义变化应优先于较高的语义变化。DNMS 在预测新突变方面表现更优,结合了语法性、语义变化和注意力变化的 DNMS 方法在所有方法中性能最高。
- 深度新突变搜索结果:DNMS 对来自系统发育树的父序列进行虚拟突变,以预测未来突变。在不同突变频率阈值下,DNMS 的性能优于其他方法。对于特定的刺突突变,如 D339H、K444T 等,DNMS 能取得较高的 AUC 值,表明该方法对预测具有临床意义的未来突变有益。
- 比较变换器模型:测试了其他两种预训练的蛋白质变换器模型 ESM1 t12 和 ESM1 t34,结果显示 ProtBERT 在语法性方面表现更优,验证了选择 ProtBERT 模型的合理性。
在研究结论和讨论部分,研究表明改变预测蛋白质的上下文,从参考序列改为父序列可提高预测性能,因为参考序列不包含许多训练集中的突变,无法准确反映进化情况。虽然语言模型仅基于序列数据预测突变,难以确定突变对病毒适应性的具体影响,但早期变体检测模型可帮助确定可能发生的未来突变,为湿实验室实验提供指导。同时,研究也指出 DNMS 方法的局限性,如无法考虑缺失和插入突变。未来可采用生成性蛋白质模型等其他方法来研究这些突变。总体而言,该研究为预测 SARS-CoV-2 刺突蛋白新突变提供了有效方法,对公共卫生防控具有重要意义,有助于提前预警潜在的病毒变异,为开发免疫疗法和疫苗提供依据,推动了病毒进化研究和公共卫生领域的发展 。