综述:SARS-CoV-2:病毒突变预测与大流行防范的经验教训

【字体: 时间:2025年05月16日 来源:Current Opinion in Immunology 6.6

编辑推荐:

  本综述聚焦 COVID-19 大流行中 SARS-CoV-2 变异预测策略,将方法分为正向(观察表型追踪基因型)和反向(选定基因型分析表型)突变预测。阐述全球监测、实验进化等正向方法,及深度突变扫描(DMS)、免疫分析、计算建模等反向方法,强调整合策略对大流行防范的意义。

  

引言


自 2019 年 12 月在中国武汉出现以来,严重急性呼吸系统综合征冠状病毒 2(SARS-CoV-2)已在全球造成超过 7 亿例病例。五年后,该病毒仍在不断变异和进化。截至 2024 年 12 月,世界卫生组织已将 JN.1 指定为当前关注的变体,与原始武汉株相比,其携带超过 90 个突变。对超过 1000 万份 SARS-CoV-2 序列的分析表明,刺突蛋白的受体结合域(RBD)是突变最频繁的区域,其次是 N 端结构域和 C 端结构域。像 D614G 和 N501Y 这样的突变尤为显著,它们增强了 ACE2 受体亲和力并促进了免疫逃逸。这些进化适应凸显了控制 SARS-CoV-2 及类似病毒所面临的挑战。

疫苗仍然是对抗病毒感染的关键对策。全球已批准许多疫苗和抗体疗法来对抗 COVID-19,但由于不同 SARS-CoV-2 毒株的出现,它们的效力随着时间的推移而减弱。预测潜在突变轨迹及其功能影响的能力对于指导疫苗开发和公共卫生政策至关重要。通过识别可能的未来变体,研究人员可以设计出更能抵抗免疫逃逸的疫苗 —— 要么完全阻止病毒逃逸,要么迫使病毒积累额外突变,这可能会降低其与宿主细胞的结合效率。这种方法不仅增强了疫苗保护的持久性,还有助于延长必要更新之间的时间,从而减轻大规模疫苗分发的后勤和财务负担,特别是在资源有限的环境中。此外,通过在人群中维持更高水平的免疫力,这些策略可以有助于减缓病毒传播,促进群体免疫,并减轻大流行的长期影响。

本文综述了当前预测病毒突变的策略,并提出了一个对主要方法进行分类的框架。与正向和反向遗传学的概念类似,我们将 “正向突变预测” 定义为识别特定表型(如免疫逃逸或适应性),然后追踪负责的基因型的过程。病毒监测和实验进化属于这一类别。最近,一类新的预测方法出现了,我们称之为 “反向突变预测”。这些方法从选择病原体的预定义遗传谱开始,然后表征其相关的表型特征。深度突变扫描(DMS)、免疫分析和计算建模是这种方法的例证。正如反向遗传学为正向遗传学提供了补充,使更全面和机械的研究成为可能一样,我们相信反向突变预测策略将增强正向突变预测,提供更好的预测能力和对病原体进化机制的更深入洞察。

“正向突变预测”


全球监测


全球病毒监测作为一个相互连接的网络,医疗机构、研究实验室和环境监测站从患者、废水和动物身上收集样本,以追踪病毒进化。这些样本经过基因组测序以识别遗传变化,结果被上传到国际数据库,如全球共享所有流感数据倡议的数据科学倡议平台。通过汇编基因组序列,研究人员可以检测突变模式并预测病毒可能如何进化,包括变体优势的变化、免疫逃逸潜力和疾病严重程度。

美国疾病控制和预防中心(CDC)的监测计划就是大规模监测的一个例子,该计划在 2023 年 5 月至 2024 年 9 月期间追踪了美国全国流行的 SARS-CoV-2 变体。在此期间,主要变体被确定为奥密克戎 XBB 和 JN.1 的后代,其中 JN.1 谱系变得越来越普遍。该报告的数据为后续抗原靶点的选择提供了信息,并提供了对疫苗效力潜在影响的洞察。以这种方式对病毒进行实时基因组追踪,不仅有助于早期发现新出现的变体,还使公共卫生官员能够预测感染高峰并相应地调整应对策略。

除了人类病例,监测工作还延伸到野生动物种群样本的基因组分析。研究已经记录了 SARS-CoV-2 在人类和动物之间的传播实例,这引发了人们对某些物种可能成为新变体储存库的担忧。虽然 SARS-CoV-2 在野生动物中适应的确凿证据仍然有限,但收集和测序动物样本有助于评估跨物种传播事件的风险,这些事件可能将新的病毒变体引入人类种群。通过比较不同地理区域病毒的进化轨迹,研究人员还可以深入了解选择性压力(如疫苗接种覆盖率和人群免疫力)如何塑造病毒传播和变体选择。将这些区域分析纳入全球监测可以改善对病毒进化的预测并指导疫苗设计策略。

尽管病毒追踪取得了进展,但实现真正全面的全球监测仍然是一个挑战。样本收集、测序和数据共享协议的差异可能会引入不一致性,使跨区域的比较分析复杂化,从而破坏突变预测的准确性和可靠性。此外,快速和广泛的采样对于实时监测至关重要,但许多发展中国家没有必要的系统基因组测序基础设施。这些地理差异导致资源较少地区的病毒进化代表性不足,产生偏差,降低了预测模型的普遍性,并削弱了早期检测和应对工作。

解决这些限制对于建立一个综合和响应迅速的全球病毒监测系统至关重要。开发普遍认可的数据标准(如 CDC 的数据现代化计划)的努力可以提高质量、互操作性和访问性。对测序基础设施的战略投资也有可能扩大全球覆盖范围。国际合作、技术转让和以基因组测序能力为重点的定向资助计划尤其有效,如非洲疾病预防控制中心的病原体基因组计划的有效性所证明的那样。此外,测序技术的创新(如便携式测序平台和可访问的生物信息学工具)在普及基因组监测方面发挥着关键作用。使这些技术在不同的地理和经济环境中更广泛地可用,可以增强全球突变预测的稳健性和公平性。

实验进化


预测新变体的另一种策略是在受控实验条件下在体外或体内传代病毒,并应用全基因组测序来识别突变。与专注于自然环境中已经出现的变体的全球监测和免疫分析不同,实验进化旨在观察在实验条件下自发产生的突变。这些突变最初是随机发生的,但可能会消失或在系统中固定下来。在实验室和自然病毒种群中一致出现的突变可能表明更广泛的进化趋势,为疫苗和治疗开发提供有价值的见解。

慢性 HIV-1 感染为病毒进化提供了一个自然案例研究。在单个个体中,随着中和抗体反应的演变, successive waves of viral escape variants arise。逃逸模式主要通过不断变化的聚糖 “盾牌” 揭示了 HIV-1(可能还有其他病毒)在保持适应性的同时进化出抗抗体能力的无限能力。从患者样本中获得的这些见解塑造了我们对免疫逃逸的理解,并指导了广泛中和抗体和疫苗研究免疫原的设计。

然而,在像 SARS-CoV-2 这样的急性病毒感染中,研究宿主内进化的机会更为有限。相反,研究必须依靠动物或细胞模型来模拟选择压力并观察突变轨迹。例如,在多种人类细胞系中直接传代早期 SARS-CoV-2 分离株导致鉴定出与 Alpha、Gamma 和 Omicron 变体中观察到的一致的突变。一项在 VeroE6 细胞中长期连续传代 SARS-CoV-2 的研究显示,不同品系独立获得了相同的突变,这表明存在趋同进化模式。在 K18-ACE2 小鼠体内传代 B.1.617.2(Delta)揭示了在后期传代中与疾病严重程度和抗体抗性相关的新生突变。总之,这些模型提供了一种在人类种群中广泛传播之前预测可能出现的进化路径的方法。

与体外和计算机方法相比,体内模型通过考虑复杂的生理相互作用,提供了更全面的自然感染 representation。因此,它们在表征当前和潜在的 SARS-CoV-2 变体方面不可或缺。然而,动物模型很少能完全重现人类生理学。这使得为特定应用选择合适的模型成为一个重要考虑因素。将体内技术作为多管齐下策略的一部分,将最好地为我们预测和理解未来 SARS-CoV-2 变体的进化提供信息。

进化传代还可用于研究疗法对新出现变体的稳健性。例如,用各种抗体混合物对 SARS-CoV-2 进行长期传代已被用于评估病毒对治疗性抗体的抗性。此外,在 ACE2 低表达细胞系中使用 SARS-CoV-2 进行的适应研究确定了与受体亲和力和进入效率增加相关的突变。在抗病毒药物 nirmatrelvir 和 ensitrelvir 存在的情况下传代 SARS-CoV-2,发现 M49L 突变是体外和体内耐药性的驱动因素。同样,将 SARS-CoV-2 暴露于浓度不断增加的 GS-441524(瑞德西韦的母核苷)中,导致鉴定出赋予耐药性的 S759A 和 V792I 突变。使用 N4 - 羟基胞苷等诱变化合物是诱导突变和研究耐药性的有效方法。然而,此类研究必须谨慎应对伦理考虑和潜在的公共卫生风险。

实验进化的一个关键优势是能够在受控环境中跟踪病毒进化。然而,这种方法面临三个无法同时完全解决的挑战:生物学相关性、通量和成本。体外细胞系提供了一种高通量和经济高效的模型,但未能捕捉到受宿主免疫、组织特异性感染动态和其他复杂生物因素影响的突变。更复杂的模型,如类器官和人源化小鼠,更好地模拟了人类生理学,因此可能产生更具临床相关性的发现。尽管如此,这些模型需要大量的劳动力和资源,特别是对于长期传代和维持多个传代谱系。此外,此类实验固有的有限规模引入了随机性,这意味着只有一小部分可能的突变会出现。这限制了全面分析可能导致特定表型的所有突变的能力,从而限制了可以获得的见解的广度。

扩大预测视野


全球监测和实验进化是正向突变预测的核心工具,并为病毒进化提供了重要见解。然而,这些方法在很大程度上依赖于观察和推断已经出现的变体。这限制了它们预测全新或前所未有的变体的能力。奥密克戎变体具有多种没有明确进化中间产物的新突变,就是一个很好的例子。因此,缩小预测能力的这一差距需要补充策略,主动探索更广泛的突变景观。

“反向突变预测”


深度突变扫描


DMS 已成为一种变革性技术,彻底改变了我们理解蛋白质结构 - 功能关系的能力。在病毒学背景下,DMS 提供了一种前瞻性方法来测量大量突变对刺突蛋白的影响,甚至在它们出现在循环病毒变体中之前。传统的 DMS 使用酵母或哺乳动物细胞中的细胞表面展示系统来测量蛋白质结合。例如,对 BA.2.86 RBD 跨越 200 个氨基酸的位点饱和诱变评估了所有单突变对 ACE2 亲和力和 RBD 表达的影响。这项研究表明,虽然 Q493E 突变(从 BA.2.86 到 KP.3 存在)单独损害 ACE2 亲和力,但 L455S、F456L 和 Q493E 之间的强正上位性使 KP.3 能够维持 ACE2 结合并增强免疫逃避性。然而,传统的 DMS 方法通常局限于特定的蛋白质区域,并且主要测量结合亲和力,而不评估更广泛的功能影响。

最近的进展扩展了 DMS 的能力。Jesse Bloom 实验室应用基因型 - 表型连接的假病毒系统,能够评估整个蛋白质,并包括抗体中和评估。扩展的 DMS 准确预测了具有针对各种抗体的逃逸潜力的非 RBD 突变。此外,对完整 XBB.1.5 和 BA.2 刺突的 DMS 分析确定了改善 ACE2 结合的非 RBD 突变,如 Q52H 和 T572I。其他非 RBD 突变被发现改善血清抗体逃逸,同时降低 ACE2 结合能力,表明它们通过改变 RBD 构象起作用。通过估计突变对病毒生长和血清逃逸的影响,他们还部分预测了 SARS-CoV-2 进化枝的进化成功,证明了 DMS 重现现实世界进化轨迹的潜力。值得注意的是,假病毒系统的使用(其中 SARS-CoV-2 刺突蛋白展示在慢病毒假病毒颗粒上,没有额外的辅助质粒就不能自我复制)避免了产生更适应、潜在危险的活病毒株的风险。

将 DMS 从单个结构域扩展到完整蛋白质需要大量资源来构建和测试所有可能的突变,并且测试组合突变的复杂性呈指数级增长。高通量方法和自动化对于全面的 DMS 研究至关重要。另一个限制是蛋白质水平的评估可能并不总是准确反映病毒适应性,需要通过额外的功能测定进一步验证。尽管如此,DMS 已经被用于识别表位,以开发抗耐药抑制剂。例如,寨卡病毒 NS2B-NS3 蛋白酶的 DMS 发现,一个重要的变构位点的关键残基实际上是可变的,这阻碍了对该位点的进一步研究,并建议了其他病毒逃逸可能性较小的表位。

免疫分析


免疫分析为 DMS 提供了现实世界的推论,利用历史人口水平的数据来理解病毒 - 宿主相互作用和新变体的进化。两种常用的方法是抗原作图(提供人群免疫的广泛 mapping)和表位作图(侧重于详细的分子相互作用)。通过分析免疫反应,研究人员可以确定当前的免疫压力点和潜在的病毒逃逸途径,从而预测最有可能出现并在人群中固定的突变。

抗原作图是一种可视化抗原和抗血清距离的强大技术。最初使用流感病毒的血凝抑制数据开发,它也可以应用于其他病毒的中和试验数据。在不同的研究中,已经为 SARS-CoV-2 构建了几个抗原图谱。例如,一项分析 21 个 SARS-CoV-2 变体和 15 组人类血清的研究确定,刺突蛋白位置 417、452、484 和 501 的取代是抗原差异的关键决定因素,尽管个体对这些取代的敏感性差异很大。另一项关于广泛收集的奥密克戎前和奥密克戎变体的抗原作图研究表明,二价加强后的混合免疫后交叉中和作用有所改善,支持未来的疫苗更新。此外,奥密克戎亚谱系的抗原作图发现,BA.5 抗血清对 BQ1.1 有实质性的交叉中和作用,表明这些变体之间存在免疫关系。

表位作图识别病毒抗原上的抗体或 T 细胞受体结合位点。通过表征高度靶向的表位,研究人员可以确定处于强选择压力下的抗原区域,并预测病毒最可行的突变。结合来自抗原作图的人群免疫数据,表位作图能够预测哪些变体最有可能出现和广泛传播。线性表位作图使用重叠肽库,而构象表位作图需要更先进的方法,如 X 射线晶体学、肽阵列、丙氨酸扫描、结构域交换、氢 - 氘交换、化学交联和羟基自由基足迹。最近一项在 SARS-CoV-2 疫苗接种者和康复患者中绘制 T 细胞表位的研究确定了保守和免疫原性的非刺突表位,这可能有助于对新出现变体的免疫监测。

免疫分析的一个局限性是其回顾性。与其他一些方法不同,它依赖于招募患者队列,这可能需要数月甚至数年。样本收集和分析之间的这种延迟使得难以捕捉实时病毒进化,阻碍了即时的公共卫生反应。尽管已经通过自动化努力提高了通量,但这种固有的延迟仍然是一个挑战。提高免疫分析效率的另一个途径是开发人工智能模型来预测结合表位。然而,训练这些模型需要初步研究的大量数据集,限制了它们对新出现病毒的应用。

计算建模


上述不同的信息来源可以通过各种计算方法单独或综合使用,以预测病毒进化和变体的出现。

丰富的流行病学数据提供了大量可用于预测病毒进化的信息。已经出现了几种利用此类流行病学数据的方法。例如,使用多项逻辑回归来描述变体频率变化在估计病毒适应性方面显示出强大的结果。基于自然语言的模型 —— 受限语义变化搜索模型,对病毒亚型实现了 95-99% 的聚类准确性,并在不同病毒蛋白中识别出曲线下面积值在 0.57 到 0.85 之间的免疫逃逸突变。分解序列以评估单个突变的影响,分析流行病学模型也被用于预测突变的传播性。该模型能够预测,当关注的变体(如 Alpha、Delta 和 Omicron)在采样序列中不到 2% 时,它们具有显著的传播优势。

在没有监测或流行病学数据的情况下,仅生物物理信息就可以为预测未来的病毒变体提供丰富的信息来源。EVEscape 通过一种将大流行前数据与生物物理信息相结合的新框架计算逃逸概率,到 2023 年 5 月,其最高预测中有 50% 在实际变体中被发现,高频突变的准确率为 66%。该方法针对 SARS-CoV-2、流感和 HIV 的实验扫描进行了验证,证明了其在早期大流行防范中的实用性。

尽管如此,算法可以从流行病学数据中受益匪浅。PandoGen 是一种在一般蛋白质序列上预训练并在来自全球共享所有流感数据倡议的 SARS-CoV-2 刺突蛋白序列上微调的模型,通过将蛋白质语言建模与基于奖励的学习相结合,展示了强大的预测能力。尽管比 ProGen2 等更大的模型小 30 倍,但它成功地在 Delta 变体出现前 1 个月预测了其序列,并提前 10 天预测了 BA.5 序列。

DMS 和免疫分析等 “反向突变预测” 技术的出现,产生了足够大的数据集,可用于计算方法训练或验证病毒逃逸预测。Chi 等人将分子动力学分析与 FoldX 稳定性计算相结合,通过模拟针对一组单克隆抗体的结合亲和力变化,评估 SARS-CoV-2 突变逃逸抗体中和的潜力。这种方法显示,在 19 个抗体 - 抗原复合物中,预测的结合亲和力变化与实验逃逸分数之间的平均皮尔逊相关系数为 0.52。同样,

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号