
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Science:预测未来SARS COV-2变异毒株的突变驱动力
【字体: 大 中 小 】 时间:2022年01月12日 来源:AAAS
编辑推荐:
发表在SCIENCE 转化医学2022 年1月11日的论文表明,我们建立了一种预测扩散突变的方法,并将其应用于预测假定的 VOC/VOI/VBM 的未来突变。这些预测产生了从体外数据中已知重要的突变。这种方法可以提前数月预测传播突变。
SARS-CoV-2 的进化威胁到疫苗和自然感染衍生的免疫以及治疗性抗体的功效。 为了提高公共卫生准备,我们试图预测 SARS-CoV-2 中现有的哪些氨基酸突变可能会导致未来的关注变体。 我们测试了包括流行病学、进化、免疫学和基于神经网络的蛋白质序列建模在内的特征的预测价值,并确定了 SARS-CoV-2 大流行内进化的主要生物学驱动因素。 我们发现证据表明,ACE2 介导的传播性和对群体水平宿主免疫的抵抗力随着时间的推移作为 SARS-CoV-2 进化的主要驱动因素而起起落落。 我们追溯性地确定了将传播的高精度(接受者操作特征曲线下面积,AUROC=0.92-0.97)突变, 在大流行的不同阶段最多提前四个月。 该模型的行为与合理的因果结构一致,其中流行病学协变量结合了病毒适应性的不同和不断变化的驱动因素的影响。 我们应用我们的模型来预测将在未来传播的突变,并描述这些突变如何影响治疗性抗体的结合。 这些发现表明,可以预测可能出现在关注的新兴 SARS-CoV-2 变体中的驱动突变。 我们针对 Omicron 验证了这一结果,显示出出现前其成分突变的预测分数升高,并且出现期间每日预测的分数快速增加。
介绍
SARS-CoV-2 的进化对公共卫生提出了持续的挑战。 随着大流行的发展,SARS-CoV-2 基因组中出现了数以万计的突变。 了解病毒蛋白突变的相对重要性,特别是那些与抗病毒免疫相关的突变,是分配准备工作的关键。 病毒 Spike 蛋白的突变受到特别关注,因为 Spike 是抗体介导免疫的靶标,并且是当前疫苗中的主要抗原 ( 1 )。 截至 2021 年 12 月 1 日,来自 GISAID 数据库的 Spike 序列中有 10,381 个不同的氨基酸替换、插入或缺失( 2 )。 这些突变以不同的组合发生在蛋白质中除了一个位置之外的所有位置,产生了超过 160,000 个独特的 Spike 蛋白质序列。 这些突变的一小部分是美国疾病控制中心 (CDC) 分类的“正在监测的变体”(VBM)、“感兴趣的变体”(VOI) 或“关注的变体”(VOC) 的组成部分。 3 )。 VOI 和更高警戒 VOC 之间的区别在于是否怀疑或确认了负面临床影响。 VBM 是一种变体,如果不是低流行率,它们将被归类为 VOC。
对有助于未来推定的 VBM/VOI/VOC 的关键尖峰氨基酸变化的早期统计和算法识别对公共卫生战略有明显的好处。 这样的预测可以加强对基于抗体的治疗、疫苗和诊断的脆弱性的识别。 预测未来成功的突变将延长可用于在传播早期阶段制定主动反应的时间。 它也将补充现有的预报努力寻求其随着时间的推移(预测整体SARS-COV-2发生率,住院和死亡的 4 - 6 )。 专注于单个突变而不是基因组变异的成功也有助于长期预测。 建模基因组变异的组合学很快变得棘手。 举个简单的例子,对于长度为 1200 的蛋白质,有超过 2.5 亿个不同的序列,它们的区别仅在于两个氨基酸变化。 通过从一开始就关注氨基酸成功,我们依赖于关于突变之间独立性的常见且基本正确的假设,并且能够利用每个突变的更多信息,从而延长可以有意义地预测进化的时间线。
有一组强大且不断扩展的分析来表征 SARS-CoV-2 的氨基酸突变特征。 研究已经确定了具有改变的生物学或抗原特性的新变体的出现 ( 7 – 9 ),并使用低通量方法对其进行了表征 ( 10 , 11 )。 深度突变扫描阐明了固定基因组骨架中所有单位点氨基酸取代的体外生物学效应 ( 12 – 14 )。 其他人则描述了病毒蛋白质组中免疫优势位点的分布( 15 , 16 ) 并使用应用于蛋白质序列的神经自然语言处理 (NLP) 估计病毒序列的适应度 ( 17 )。
我们在这里寻求建立在这些数据和方法的基础上,以预测将在不同季节传播的突变。 我们假设这也将使我们能够在短期内确定病毒进化的主要生物学驱动因素。 这两个目标是相辅相成的:对预测最有用的特征可以推断为衡量病毒适应度。 相反,更好地理解进化动力学可以使建模更加准确和稳健。 为了实现这些目标,我们描述了全球和美国内部快速突变的传播模式,并阐明了氨基酸突变特征的相对预测重要性,包括免疫、传播性、进化、语言模型和流行病学。 下一个, 我们利用来自先前感染波的数据来训练和回测预测未来扩散突变的预测模型,并说明预测的突变如何不同地影响临床抗体。 我们将此分析扩展到预测整个 SARS-CoV-2 蛋白质组中的突变,特别是 Delta 谱系的突变。 随着 Omicron 序列数量的增加,这种有针对性的分析也可以针对该谱系重复进行。
结果
为了开发模型,我们将“传播”氨基酸突变定义为多个国家频率的特定倍数变化,比较选定日期之前和之后的时间窗( 图 1 )。 这些突变可能是替换、插入或缺失。 ( 2 ) 在每个国家内,我们将包含被建模突变的序列数与未建模的序列数制表,在感兴趣日期前后的三个月内( 图 1A )。 对于每个突变,我们计算了倍数变化和相关的比较调整 p 值。 保留来自任何国家的具有显着 Benjamini-Hochbert 调整 p 值 (q < 0.05) 的突变。 该集合使用以下经验标准进一步过滤,所有这些都必须满足才能将突变定义为扩散:至少一个国家的基线倍数变化(FC)至少为 10.0; 在三个或更多国家/地区的 FC 至少为 2.0; 以及后期时间窗口中的最小全局频率为 0.1%。 我们强调,用于计算基线和最小频率的倍数变化的序列都是在用于模型训练或特征计算的序列之后收集的,两个数据集之间没有重叠或交错。 图 1B )。 评估的数据窗口范围为 2020 年 1 月至 3 月至 2021 年 6 月至 8 月。

这种扩散突变的定义捕捉到了全球 VOI/VOCs 的扩展( 图 S1A )以及一些鲜为人知的突变的增长( 图 S1B )。 以突变为中心的预测方法中隐含的假设是突变以近似独立的方式累积,或者至少在查看所有基因组背景时可以平均它们的相互作用。 为了测试是否严重违反了这个隐含假设,我们测试了所有传播突变对之间的联系( 图 S2 )。 对于不到 5% 的突变对,观察到突变对之间共现的富集率大于 8 倍。 因此,我们发现突变之间的(成对)独立性是一个有用且近似正确的简化假设。
接下来,我们确定了氨基酸突变的哪些特征对于预测它们在基线时的扩散具有参考意义(
表 1
,数据文件 S1
)。
在 Spike 的受体结合域 (RBD) 内,我们发现 ACE2 结合亲和力是突变扩散的有用预测因子(接收器算子特征曲线下面积,AUROC=0.85;
图 1C
)。
另一个有用的预测因子是 Spike 突变体体外表达的变化(AUROC=0.82;
图 S3A
)。
在免疫逃逸的测量中,已知抗体表位(抗体结合评分)与抗 SARS-CoV-2 抗体的结合贡献可预测突变扩散(AUROC=0.71;
图 1C
),而 CD4
+
或 CD8
+
T 细胞免疫原性没有为突变传播提供实质性的解释能力(AUROC=0.52-0.62;
图 S3A
)。
我们发现自然语言处理 (NLP) 的序列合理性(语法性)分数(
17
)同样可以预测深度突变扫描数据(AUROC=0.82;
图 1C
)。
预测传播的最佳进化特征(AUROC=0.86;
图 1C
)是
从 Hyphy 包 [
http://www.hyphy.org
](
19
)中的
固定效应似然(FEL(
18
))获得的,该包
测试在系统发育树的内部分支中普遍存在负选择或正选择。
| 特征组 | 多变的 | 意义 | 来源或参考 | 参数数量 |
|---|---|---|---|---|
| 进化 | 正选择(FEL、MEME) | 来自固定效应似然 (FEL) 和混合效应演化模型 (MEME) 的参数 | HyPhy ( 19 ) | 11 |
| 密码子形状 | RNA 形状约束 | 曼弗雷多尼亚 等人 。 2020 ( 32 ) | 3 | |
| 病毒熵 | 氨基酸位点每个密码子位置的香农熵 | 这部作品 | 3 | |
| 免疫 | CD8 表位逃逸 | 细胞毒性淋巴细胞 (CTL) 表位中 SARS CoV-2 突变的频率 | 阿杰勒 等人 。 2021 ( 15 ) | 1 |
| CD8 响应 | 患者中对表位的 CD8+ T 细胞反应百分比和平均 | 塔克 等人 。 2021 ( 33 ) | 2 | |
| CD4 反应 | 患者中对表位的 CD4+ T 细胞反应百分比和平均 | 塔克 等人 。 2021 ( 33 ) | 2 | |
| 抗体结合评分 | The estimated percent contribution of a site to binding of the indicated antibody, as estimated by Molecular Operating Environment (MOE) | This work | 17 | |
| Maximum escape fraction in vitro | The maximum escape fraction across all conditions for that mutation | Greaney et al . 2021 ( 34 ) | 1 | |
| Epidemiology | Variant frequency | The percent of sequences with the mutation | Calculated from GISAID ( 2 ) | 1 |
| Fraction of unique haplotypes | The fraction of unique Spike haplotypes in which a mutation is observed | Calculated from GISAID ( 2 ) | 1 | |
| Number of countries | The number of countries where it has been observed. | Calculated from GISAID ( 2 ) | 1 | |
| Epi Score | The exponentially weighted mean rank across the other epidemiology variables | Calculated from GISAID ( 2 ) | 1 | |
| Transmissibility | RBD expression change | Change in RBD expression due to the mutation | 斯塔尔 等人 。 2020 ( 13 ) | 1 |
| ACE2 结合变化 | ACE2 结合亲和力的变化 | 斯塔尔 等人 。 2020 ( 13 ) | 1 | |
| 语言模型 | 语言模型 | 突变的语法和语义变化 | 希 等人 。 2021 ( 17 ) | 2 |
表 1 。 分析特征总结。
为 5 个特征组创建了 14 个变量的 48 个参数。 这些特征捕获了突变传播的进化、免疫、流行病学、传播性和语言模型预测因子。 所有参数的详细描述都包含在 数据文件 S1 中 。
然而,最高的预测性能来自流行病学特征,即更直接测量采样突变计数的变量( 表 1 )。 此特征类别中最具预测性的变量是“Epi 评分”,它是其他流行病学变量(突变频率、发生突变的独特单倍型的比例以及发生突变的国家数量)的指数加权平均排名,其中AUROC=0.99。 该分数通过趋同进化捕获了在多个变体谱系中发生的谱系扩展和反复突变。 我们注意到,反复突变信号的效用与最近的发现一致,即趋同进化在 SARS-CoV-2 适应中起重要作用( 20 )。 正如单独对 RBD 所观察到的,在 Spike 中,我们还通过流行病学 (AUROC=0.96) 和进化 (AUROC=0.84) 措施获得了最佳预测性能( 图 1C )。 尖峰的其他特征集的性能 如图 1 所示。 S3B 。
接下来,我们试图询问这种方法对 SARS-CoV-2 进化的潜在驱动因素变化的稳健性。 例如,据推测,随着越来越多的个体通过感染或疫苗接种获得免疫力,由于免疫压力导致的选择随着时间的推移而增加( 20 )。 例如,Gamma P.1 谱系被认为在巴西迅速传播,这主要是由于在血清阳性率高的人群中进行了免疫选择 ( 21 )。 我们测量了抗体结合评分的预测性能,它量化了每个 Spike 位点对抗体亲和力的预测百分比贡献。 我们将此指标作为 B 细胞免疫优势的代表( 表 1 )( 22 )。 在给定位点的抗体中取该值的最大值,得到最大的抗体结合分数。 该指标的预测性从大流行早期几乎没有信息(与随机差异的 p 值 = 0.53)增加到 用于预测第三波扩散突变 的 AUROC 为 0.75(p<1e-4; 图 S2C )大流行( 图 1D )。 到 2021 年夏天,与 Delta 的出现同时发生,预测性随后再次下降至 0.64。 然而,我们发现流行病学特征保持了它们的表现,在多个评估期间实现了 0.92-0.97 的 AUROC( 图 1D )。
最后,我们训练模型使用上述特征的全部或各种子集来预测扩散突变。 我们采用以基线特征作为输入的逻辑回归。 最好的预测因子是流行病学特征(AUROC=0.98)和阳性选择特征(AUROC=0.83; 图 S4A )。 完整模型的性能与 Epi Score 的非基于模型的性能相当( 图 S4B )。 因此,为了简化可重复性并进一步降低过度拟合的风险,我们使用 Epi 评分来预测未来的突变扩散。 我们发现,根据 Epi 评分获取前 5% 的突变达到了合理的敏感性(~50%),并在整个时间窗口中保持了 20% 到 60% 的阳性预测值( 图 S5 )。 鉴于平均约 3% 的观察到的突变在任何时间点传播,这代表灵敏度提高了 300 倍以上,相对于随机选择,阳性预测值提高了 6 到 20 倍。
总之,免疫、传播性、进化、语言模型和流行病学特征都有效地预测了突变传播。 该方法捕捉到了大流行期间潜在选择性力量的变化。 我们发现流行病学特征尤其显示出卓越的准确性并随着时间的推移保持不变。
为了确定局部或全球动态是否驱动突变传播,我们检查了全球或仅美国的流行病学值是否更好地预测了美国的传播突变。 我们测试了 Epi Score 在四波大流行中的表现。 我们发现,在美国和全球范围内,提前 11 个月预测 AUROC 高于 0.85 的突变。 总体而言,全球流行病学指标最好,并且通常比国家级指标本身更能预测国家级突变传播( 图 S6 )。
为了说明 Epi Score 使用全局特征的实际效用,我们评估了我们能够多早地预测定义当前和以前的 CDC VOC、VOI 和 VBM(n=50 定义突变)的尖峰突变的传播。 为了保守起见,我们将首次预测突变的日期定义为预测它在随后的两个分析期间传播的最早日期。 在 50 个突变中( 图 2A ),预测突变传播和达到 1% 频率之间的中位时间为 5 个月。 最大值为 20 个月,而 D614G 的最小值为 0 个月,因为到第一个预测期时,这种突变的频率已经达到 69%。 这些预测区间的分布 如图 2B 所示 。

特别值得注意的是,预计 Y145H 将从 2021 年 7 月开始传播。这种突变现在是 AY.4.2 的定义突变,它是 Delta VOC 的传播亚谱系。 截至 2021 年 10 月,AY.4.2 占英国样本的 8.5-11.3%。 AY.4.2 的估计增长率仍略高于 Delta,AY.4.2 病例的家庭二次发作率高于其他 Delta 病例 ( 23 )。 基于这些观察,我们得出结论,我们的方法能够提前几个月预测所有当前和以前的 VOC/VOI/VBM 的关键突变。 在达到令人担忧的全球传播程度之前,对当前 VOC、VOI 和 VBM 突变的早期预警是可能的。
为了了解流行病学特征的高预测性能,我们构建了一个有向无环图来表示假设的因果关系,并探讨性能的相对趋势是否与该模型的预期一致( 图 3A )。 我们提出流行病学特征介导病毒适应性和突变传播之间的关系。 我们的理由是,如果突变对病毒适应性的贡献足以使其在某个时间点(通过全球频率和地理分布测量)达到可观的流行率,并且在许多遗传背景的背景下,它可能会使其流行率更高未来也是如此(除非它被更适合的适应所取代,或者适应环境发生了变化)。 这种类型的中介关系(适应度-当前流行度-未来流行度)意味着流行病学流行特征将从已知和未知的选择驱动因素中获取信息。

如果因果模型是合理的,我们首先期望因果效应被介导的变量(如上所述)应该以与传播突变相比相当甚至更高的准确度来预测流行病学变量。 这通过比较 图3B 的第一列和第二列来 说明 。 我们观察到,除了最大抗体结合得分外,所有顶级变量都比预测突变扩散更好地预测 Epi 得分。 Epi 分数的最大抗体结合分数的较低预测性与由于不断变化的进化压力而导致的轻微时滞效应一致。
中介的第二个标准是来自这些变量的信息不应在很大程度上补充单独的流行病学变量的预测性。 换句话说,其他输入提供的与流行病学变量相关的额外信息应该很少或没有。 我们通过将 图 3B 的第 3 列中的双变量模型 的 AUROC 与单独的 Epi 评分 (0.983) 的 AUROC 进行 比较来评估这一点 。 对于进化测量 FEL (0.984),观察到补充模型的唯一名义 AUROC 增加。 我们没有发现这个或任何其他变量的 Epi 评分在 RBD 内或跨全长 Spike 具有统计学上显着的互补性(参见补充部分“中介分析”, 表 S1)。
我们对中介因果关系的检查首先假设一个基于先验知识的因果图。 这种方法对于许多因果推理方法 ( 24 ) 很常见, 并且代表了这些方法 ( 24 ) 的 一个众所周知的局限性 。 因此,我们认为这是一种更系统地分析我们结果的合理性的工具。 尽管通常很难验证所提出的因果图的结构,但我们的研究结果支持流行病学变量介导其他类别解释变量的影响的概念,这可以解释它们的高预测准确性。
虽然这项工作正在修订中,但我们遇到了 2021 年 11 月下旬出现的 Omicron (B.1.1.529/21K) 变体。 尽管定义 Omicron 主要单倍型的许多个体突变的频率较低(中位等位基因频率为 0.00046),但我们观察到 Spike 的 Epi 评分较高(中位 Epi 评分为 9.51); 图4A 。 Epi Score 计算简单的一个好处是可以轻松地每天更新预测。 因此,我们试图超越单个时间点 Epi 评分来检查 Omicron 突变的 Epi 评分随时间变化的趋势。 时间分析表明,早在 2021 年 11 月 Omicron 出现的加速之前,Omicron Spike 突变的 Epi 评分值逐渐升高( 图 4B) )。 我们还发现,Omicron 的传播迅速反映在其突变的 Epi 分数的提高上,并且每日预测可以识别趋势分数。

作为评估 Omicron 奇点的独立方法,我们还使用我们的语言模型检查了 Omicron 突变的进化性质。 Omicron 在 Alpha 和 Delta 之间有语法变化,但在任何 SARS-CoV-2 谱系中语义变化(预测的抗原转变)最高( 图 S7 )。 事实上,Omicron 的语义变化分数是 Alpha 和 Delta 的两倍,这与高水平的突变和免疫逃逸适应一致。
在准确预测大流行的不同浪潮中传播突变的基础上,我们接下来利用当前数据的 Epi 评分来预测未来几个月可能导致 VOI 和 VOC 的突变。 由于全球指标优于仅限于美国的指标,即使是在美国境内进行预测,我们也专注于全球预测。 我们考虑缩短我们的特征计算窗口,以进一步减轻不断变化的进化动力学的影响。 然而,我们发现更长的特征计算窗口提高了所有预测窗口的性能( 图 S8 )。
作为预测分析的应用,我们检查了截至 2021 年 10 月 19 日 预测突变与临床抗体结合位点的交叉情况。 我们发现每个抗体表位的预测突变数量存在很大差异( 表 2 ),范围从 10 Celltrion 的 CT-P59 的突变,以及 Vir-7831 (sotrovimab) 的两个低频突变,其设计目的是通过靶向在冠状病毒中保守的区域来对病毒进化更加稳健 ( 25 )。 sotrovimab 表位的两个突变,A340S 和 R346K,不限制中和 ( 25 , 26 )。 作为另一个概念证明,我们将注意力集中在 Spike S494P,据报道该突变对 ACE2 具有增强的结合亲和力 ( 27 ),并在一些恢复期血清中将中和减少 3-5 倍 ( 27 )。 我们发现 S494P 突变降低了临床治疗性抗体的中和潜力:Ly-CoV555(bamlanivimab)、CT-P59 和较小程度的 REGN10933(卡西利单抗)( 图 5 ) 。
| 临床治疗性抗体 | 表位的预测突变 |
|---|---|
| VIR-7831(索特罗维单抗) | A344S?、R346K? |
| LY-CoV016(埃替西单抗) | K417T?、K417N*、L455F? |
| REGN10987 (imdevimab) | R346K?、K444N*、G446V* |
| LY-CoV555(巴马尼单抗) | L452R*、L452Q?、V483F?、E484K*、E484Q*、F490S*、S494L?、S494P* |
| REGN10933(卡西利单抗) | K417T*、K417N*、L455F*、G476S*、S477I?、T478K?、E484K*、E484Q*、F490S* |
| CT-P59 | K417T?、K417N?、L452R*、L452Q?、L455F?、E484K*、E484Q?、F490S?、S494L?、S494P? |
表 2 。 治疗性抗体的预测突变。
截至 10 月 19 日的预测突变(包括 VOC 突变)与治疗性单克隆抗体的结合表位相交。 根据分子操作环境 (MOE) 程序的估计,如果突变位于对给定抗体贡献至少 1% 的总结合能的位点,则包括突变。 已知将抗体 EC50 降低五倍以上的突变用星号标记。 带有匕首的突变表明中和减少了不到五倍( https://covdb.stanford.edu/page/susceptibility-data/ ),而带有双匕首的值表明未经测试的抗体、突变组合。

最后,为了证明我们方法的灵活性和可扩展性,我们预测了突变在 Delta 基因组背景下的传播,跨越整个 SARS-CoV-2 蛋白质组。 因为 Epi Score 的组成部分可以在测序数据可用的情况下计算任何突变,所以扩展到完整蛋白质组是微不足道的,而且计算量也不大。 它还可以在任何序列子集上进行合理计算,以确定哪些突变最有可能根据它们在该子集(或谱系)内的特征传播。 因此,采用这种方法来生成特定谱系的预测也很简单。 图 6A 显示了整个 SARS-CoV-2 基因组中 Epi 评分的曼哈顿风格图。 该图突出显示了正选择位点的所有突变(FEL,用于检测位点选择压力的固定效应模型,FDR < 0.05),这些突变目前在 Delta 背景上以超过 0.1% 的频率发生。 我们发现了 151 个这样的突变,分布在整个蛋白质组中。 整个蛋白质组的突变密度为每 100 个氨基酸 1.8 个,SARS-CoV-2 蛋白的突变率从 0 到 12.3 不等( 图 6B )。 通过这种方法,在 ORF3/NS3 中鉴定出最高的突变密度,这是一种据报道可调节自噬体-溶酶体融合 (ORF3a) ( 28 ) 和拮抗干扰素 (Orf3b) ( 29 ) 的辅助蛋白 )。 Spike 接近平均水平,每 100 个氨基酸有 2.3 个突变的密度。 根据 Epi 评分排名,可能传播的前 5 个突变是 Spike:G142D、Spike:T95I、NSP3:A1711V、N:Q9L 和 NSP2:K81N。 数据文件 S2 中提供了全蛋白质组的所有突变 Epi 评分 。

总之,我们建立了一种预测扩散突变的方法,并将其应用于预测假定的 VOC/VOI/VBM 的未来贡献者。 这些预测产生了从体外数据中已知重要的突变。 我们得出结论,这种方法可以提前数月预测传播突变。 我们发现预测突变的一个子集可能对临床抗体的持续疗效产生影响,但这些影响的水平差异很大。 然后,我们将分析扩展到包括完整的 SARS-CoV-2 蛋白质组,并生成 Delta 和信息丰富的 Omicron 预测。 这项工作还表明,位于 Spike 之外的突变传播具有相当大的潜力,强调了可应用于整个病毒蛋白质组的预测方法的重要性。
我们建立了传播突变的工作定义,并利用该定义对预测突变传播的氨基酸特征进行了系统分析。 这产生了一种简单、可解释且准确的方法,可在多个大流行浪潮中提前几个月预测突变。 计算这个分数也足够有效,可以仅使用笔记本电脑就可以对数百万个序列进行每日预测更新。 尽管该策略只需要基因组监测数据,但我们也强调了完整的表位定位、体外深度定点诱变和下游功能实验验证的价值。 通过回顾性评估大流行的多波并验证与实验数据的一致性,对预测传播突变的信心, 并有一个合理的因果框架。 此外,在最早的警告信号与 VOC、VOI 和 VBM 中当前突变的高人口频率之间长期观察到的滞后进一步支持了使用预测来预测未来有关突变的传播。 尽管这种方法在预测在短时间内出现并上升到高频率的突变的能力方面受到限制,但我们发现这种情况很少发生。
我们评估了 Epi 评分中汇总的流行病学特征,例如突变频率、突变在国家/地区的分布以及发生突变的独特单倍型的比例。 我们探索了其他预测因素,包括每个特征的增长率,但没有发现它们提高了性能。 我们注意到独特单倍型的部分与复发突变的系统发育测量具有相似性。 然而,在这种计算中相当缺乏系统发育分辨率,因此重复突变的数量是统计上的“嘈杂”度量,很大程度上取决于用于构建系统发育的方法,并且计算成本非常高。 另一方面,独特单倍型的比例计算速度很快,可以完美估计, 并且会随着反复突变和单谱系扩展而增加; 两者都表明对健康的积极贡献。
奥米克出现了 ? 纸被完成审查程序。 尽管截至 2021 年 12 月可用的病毒序列数量有限,但我们观察到 Omicron 突变的独特模式,尽管许多个体突变的频率较低,但已经具有较高的 Epi 评分值。 同样值得注意的是,对于所有突变,高 Epi 评分值早于 Omicron 的出现,即使这些突变尚未收敛到相同的单倍型上。 我们将这些数据解释为表明个体突变在病毒基因组中被赋予了有利的特性,甚至在它们同时出现在 Omicron 尖峰上之前。
这项研究有局限性; 对病毒进化的一般预测基本上是一个棘手的问题。 目前的工作只解决了一个更简单的问题:根据对最近传播模式的分析,预测哪些突变在不久的将来会增加超过某个阈值的频率。 因此,该研究预测了现有突变的传播,但并未真正出现以前未观察到的突变。 此外,很难预测哪些谱系,即主要的病毒单倍型,会传播,因为这需要多个突变共同生长的复杂预测。 尽管存在这些限制,Omicron 上的数据表明,成功的谱系可能是由突变的收敛定义的,这些突变分别表现出高 Epi 评分值和其他表明适应性进化的特征。
尽管这项工作预测了哪些突变会传播,但给定突变的成功并不一定会导致临床或公共卫生后果。 因此,我们认为预测的价值在于优先考虑突变以进行功能筛选。 在这里,我们展示了扩散突变的一个子集如何不同地影响临床抗体。 我们还将分析扩展到包括整个病毒蛋白质组。 通过这种方法,我们确定了其他病毒蛋白中的扩散氨基酸替代,并突出了强阳性选择下的位置。 鉴于对蛋白质组的非尖峰区域在推动大流行中的作用了解有限,我们认为应该优先考虑那些非尖峰突变,以了解它们在逃避先天免疫、增加 SARS-CoV-2 复制中的作用, 更普遍的是他们对病毒适应性的贡献。 我们打算将这些结果作为未来改进的基础。 尽管我们已经证明 Epi 分数对不断变化的进化动态具有鲁棒性,但可以实时监控性能,并在必要时重新调整以捕捉新行为,正如 Omicron 的出现所显示的那样。 这种方法也可以推广和改进,以保持领先于其他病原体的进化周期。 30 ),当足够丰富和有代表性的基因组样本可用时。
学习规划。 样本量。 目前定义传播氨基酸突变的工作是基于从 GISAID EpiCoV 项目 ( https://www.gisaid.org/ ) 获得的病毒序列和元数据 。 共分析了 4,487,305 个序列。
研究目标。 我们假设可以从 GISAID 的大型数据库中估计传播模式。 接下来,我们假设一个或多个包含生物学、免疫学、流行病学和基因组(包括语言)特征的变量可以被确定为传播的驱动因素。
实验设计。 我们使用预测模型并使用接收者操作特征曲线下的面积 (AUROC) 来表达预测性能。 使用前向特征选择和逻辑回归进行预测。 前向选择的标准是训练集中逻辑回归模型的交叉验证 AUROC。 在外部交叉验证循环的每个折叠中分别执行特征选择和模型拟合。 选择逻辑回归是因为它的样本效率。
统计分析。 传播突变的定义基于 Fisher 对每个国家的频率倍数变化的精确检验,针对多重比较进行了调整,然后是传播率的过滤器(最大倍数变化至少为 10,三个或更多国家的倍数变化 > 2),以及最低患病率为 0.1%。 我们使用逐点互信息估计上位性,这对应于观察到的一对的患病率与假设独立的预期患病率的对数比率。 最具预测性的变量“Epi 评分”被定义为其他流行病学变量(突变频率、发生突变的独特单倍型的比例以及发生突变的国家/地区的数量)的指数加权平均排名。对于自然语言处理(NLP) 神经网络特征, 等人 。 ( 17 ) 其中双向长短期记忆 (BiLSTM) 模型在来自 GISAID 和 GenBank 的 Spike 序列上进行了训练。 自然选择特征是使用 在 HyPhy 包 ( 19 )(版本 2.5.31)中 实现的 MEME ( 31 ) 和 FEL ( 18 ) 方法 生成的 。 中介分析基于 Baron 和 Kenny 检验。 预测突变列表是通过计算最近三个月数据的 Epi 分数并获取前 5% 的突变(基于经验分析选择的截止值)生成的。