SARS-CoV-2基因组图谱从进化的维度寻找关注类突变

【字体: 时间:2021年05月13日 来源:Nature Communications

编辑推荐:

  麻省理工学院的研究人员对SARS-CoV-2基因组产生了他们认为最完整的基因注释。该研究团队还分析了自SARS-CoV-2开始感染人类以来,在不同的SARS-CoV-2分离株中出现的近2000个突变,让他们可以评估这些突变在改变病毒逃避免疫系统或变得更具传染性方面的能力。

  

马萨诸塞州剑桥——2020年初,在Covid-19大流行开始几个月后,科学家们能够测定导致感染的SARS-CoV-2病毒的全基因组序列。虽然那时人们已经知道了它的许多基因,但蛋白质编码基因的完整组成部分还没有确定。

现在,在进行了广泛的比较基因组学研究后,麻省理工学院的研究人员得到了一份他们认为最准确和最完整的SARS-CoV-2基因组基因注释。这项研究今天发表在《自然通讯》杂志上,他们证实了一些蛋白质编码基因,并发现其他一些被认为不编码任何蛋白质的基因。

马诺利斯·凯利斯说:“我们能够使用这种强大的比较基因组学方法来识别进化特征,从而发现这个极其重要的基因组中真正具有功能的蛋白质编码内容。”他是这项研究的资深作者,麻省理工学院计算机科学和人工智能实验室(CSAIL)的计算机科学教授,也是麻省理工学院和哈佛大学布罗德研究所的成员。

该研究团队还分析了自SARS-CoV-2开始感染人类以来,在不同的SARS-CoV-2分离株中出现的近2000个突变,让他们可以评估这些突变在改变病毒逃避免疫系统或变得更具传染性方面的能力。


比较基因组学

 


SARS-CoV-2基因组由近30,000个RNA碱基组成。根据蛋白质编码基因与相关病毒中发现的蛋白质编码基因的相似性,科学家已经确定了几个已知的编码蛋白质编码基因的区域。其他一些区域被怀疑编码蛋白质,但它们没有被确定归类为蛋白质编码基因。

为了确定SARS-CoV-2基因组的哪些部分含有基因,研究人员进行了一种称为比较基因组学的研究,他们比较了类似病毒的基因组。SARS-CoV-2病毒属于沙贝病毒的一个亚属,其中大部分感染蝙蝠。研究人员对SARS- cov -2、SARS- cov(导致2003年SARS爆发)和42种蝙蝠病毒株进行了分析。

凯利斯之前开发了用于这种分析的计算技术,他的团队也用这种技术来比较人类基因组和其他哺乳动物的基因组。这项技术的基础是分析物种之间的某些DNA或RNA碱基是否保守,并比较它们随着时间的推移的进化模式。

利用这些技术,研究人员确认了SARS-CoV-2基因组中的6个蛋白质编码基因,除了所有冠状病毒中已确定的5个。他们还确定,编码ORF3a基因的区域也编码另一个基因,他们将其命名为ORF3c。该基因的RNA碱基与ORF3a重叠,但出现在不同的阅读框中。这种基因内基因在大基因组中是罕见的,但在许多病毒中很常见,它们的基因组处于选择压力下保持紧密。这个新基因以及其他几个SARS-CoV-2基因的作用尚不清楚。

研究人员还表明,其他5个被认为可能的基因区域并不编码功能性蛋白质,他们还排除了还有更多保守的蛋白质编码基因尚未被发现的可能性。

“我们分析了整个基因组,非常确信没有其他保守的蛋白质编码基因,”该研究的主要作者、CSAIL研究科学家欧文·荣格里斯(Irwin Jungreis)说。“需要进行实验研究来弄清楚未被描述的基因的功能,通过确定哪些是真实的,我们让其他研究人员把注意力集中在这些基因上,而不是把时间花在那些甚至无法转化为蛋白质的基因上。”

研究人员还认识到,以前的许多论文不仅使用了错误的基因集,有时还使用了相互冲突的基因名称。为了纠正这种情况,他们在几周前发表在《病毒学》上的另一篇论文中,提出了一套命名SARS-CoV-2基因的建议。


快速进化

    在这项新研究中,研究人员还分析了自首次发现SARS-CoV-2以来出现的1800多个突变。对于每一个基因,他们将该特定基因在过去的进化速度与自当前大流行开始以来的进化程度进行了比较。


他们发现,在大多数情况下,那些在当前大流行之前长时间快速进化的基因会继续进化,而那些倾向于缓慢进化的基因则保持了这种趋势。然而,研究人员也确定了某些例外,这可能有助于阐明病毒是如何进化的,因为它已经适应了新的人类宿主,凯利斯说。

在一个例子中,研究人员发现了围绕病毒遗传物质的核衣壳蛋白的一个区域,该区域发生的突变比其历史进化模式预期的要多。这个蛋白质区域也被归类为人类B细胞的靶点。因此,该区域的突变可能有助于病毒逃避人类免疫系统,凯利斯说。

他说:“SARS-CoV-2整个基因组中加速最快的区域正好位于这个核衣壳蛋白的中间。”“我们推测,那些在那个区域没有突变的变异会被人类免疫系统识别并消除,而那些在那个区域随机积累突变的变异实际上能够更好地避开人类免疫系统,并留在血液循环中。”

研究人员还分析了引起关注的变异中出现的突变,如来自英国的B.1.1.7菌株、来自巴西的P.1菌株和来自南非的B.1.351菌株。许多使这些变异更危险的突变在刺突蛋白中发现,并帮助病毒更快地传播,避开免疫系统。然而,每一种变异都带有其他突变。

Jungreis说:“每一个变异都有超过20个其他的突变,知道哪些可能会发生变化,哪些不会,这很重要。”“因此,我们利用比较基因组学证据,根据哪些基因处于保守位置,初步猜测哪些可能是重要的。”

研究人员说,这些数据可以帮助其他科学家把注意力集中在那些似乎最有可能对病毒的传染性产生重大影响的突变上。他们在加州大学圣克鲁斯分校(University of California at Santa Cruz)的基因组浏览器(Genome Browser)上提供了注释过的基因集及其突变分类,供其他希望使用它的研究人员使用。

凯利斯说:“我们现在可以去研究这些变异的进化背景,了解当前的大流行是如何与更长的历史维度相适应的。”“对于有很多突变的菌株,我们可以看到哪些突变可能是宿主特有的适应,哪些突变可能没什么意义的。”

# # #

这项研究由美国国家人类基因组研究所和美国国立卫生研究院资助。Flatiron研究所计算生物学中心的研究科学家Rachel Sealfon也是这篇论文的作者之一。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:covid-19 |新冠|突变|

  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号