挑战还是争议?一个更广泛的基因组计划旨在捕获所有地球人的多样性

【字体: 时间:2022年03月17日 来源:nature

编辑推荐:

  研究人员正在构建一个人类“泛基因组”,它将代表整个人类基因变异。但并不是每个人都准备好登录。

  

西雅图华盛顿大学遗传学家埃文·埃奇勒(Evan Eichler)对人类基因组中未知的变异进行了详尽的研究后,偶然发现了一件非同寻常的事情。他和他的同事发现了一段长约40万个字母的DNA,其中包含了额外的基因副本——很可能是从一个被称为丹尼索瓦人的古人类群体遗传下来的。巴布亚新几内亚大约80%的人都有这种症状,但在其他地方几乎没有。

“我们对其规模感到震惊,”埃奇勒说。“我们一直知道,在我们的基因组中会有古老的片段。”但他表示,这一环节的长度以及在世界大部分地区的缺失,改变了我们的思维”。

这一发现以及其他意想不到的发现,使得埃奇勒和其他遗传学家对现有人类基因组图谱的广度和深度越来越不满意。2001年,耗资27亿美元的人类基因组计划公布了第一份基因组草案,旨在成为未来基因研究的参考点。但93%的序列仅来自11个人,其中许多人是通过纽约布法罗的报纸广告招募的,高达70%的DNA来自于一个人。

到2003年,这个被称为GRCh38的参考基因组在技术上被认为是完整的,但它仍然有数百个缺口和包含大量错误的部分。这些缺点带来了后果。埃奇勒与他所在大学医学中心的临床遗传学家一起工作,发现参考基因组缺少一个与巴拉特拉-斯科特综合征相关的变异区域,该综合征可导致儿童认知迟缓和骨骼畸形。因为这部分缺失了,医生没有快速的方法来检查那里的DNA错误。

基因组图谱已经有所改进,但仍不能充分捕捉人类的巨大多样性。例如,2018年,一组研究人员对910名非洲人后裔进行了测序,发现了一个由3亿个不熟悉的DNA字母或碱基组成的序列。这大约是整个基因组的10%。

为了创造一个更完整、更有代表性的参考,埃奇勒与一些知名科学家(主要是在美国)联合起来。他们的目标是捕捉几乎所有人类基因的多样性——人类物种中令人眼花缭乱的基因混合,包括添加、删除和其他类型的突变。

破坏人类基因组研究的承诺被打破

与其将基因组描绘成单个个体的线性读数,还不如像伦敦地铁地图上错综复杂的火车线路那样,包含多种路径。这将代表在不同人群中可以发现的不同序列,例如在许多巴布亚新几内亚人身上发现的长段DNA。

2019年,埃奇勒和他的同事加入了人类泛基因组计划,该计划由位于马里兰州贝塞斯达的美国国家人类基因组研究所(NHGRI)出资3000万美元。最初的目标是对大约350名来自不同背景的人进行详细的、参考质量的基因组测序,并尽可能自由地分享这些数据。

这项工作将带来重大的技术挑战,但包括加州大学圣克鲁兹分校(University of California, Santa Cruz)的凯伦·米加(Karen Miga)和华盛顿大学圣路易斯医学院(Washington University School of Medicine in St. Louis)的王婷(Ting Wang)在内的科学家认为,这是值得的。他们认为这是使基因组医学更加公平的关键。“考虑多样性是为了更好地服务人类,”王说。“这关乎公平和平等。它是关于为人类建立一个更具包容性的基因组资源。”

泛基因组的概念可以追溯到对一种名为无乳链球菌的细菌的研究,即B族链球菌,它可以导致新生儿的致命感染。2005年,科学家通过分析这种细菌的6种菌株发表了一篇论文,试图捕捉这种细菌的所有遗传细微差别。他们得到的是所有6个菌株共享的核心基因组,以及部分共享和菌株特异性基因的“可有可无”基因组。

这是一项棘手的任务,因为细菌甚至与其他物种交换和共享DNA片段,主要是通过一种称为水平基因转移的过程。“细菌中可能发生很多事情,”圣保罗明尼苏达大学的植物遗传学家坎迪斯·赫希(Candice Hirsch)说。因此,生物学家不断更新细菌参考基因组。相比之下,人类就不那么容易增加新的变异。赫希说,这使得确定人类基因组的特征更加可行。

Portrait of Krystal Tsosie in a laboratory            

 

但人类基因组的长度和重复弥补了它在动态方面的不足。例如,人类24条染色体中最大的一条是1号染色体,它拥有超过2.5亿个碱基对。这是无乳链球菌长度的100多倍。它充满了简单的、重复的序列和其他更复杂的片段的重复。直到过去十年,科学家们对DNA测序的主要选择是将其分解成片段,并将其解读成小块。这使得他们能够相对容易地检测到DNA中单个字母的变化。但是,当一长段DNA包含一个基因的多个副本时,短读会让人很难识别。埃奇勒专门研究基因复制和缺失等结构变异,他选择了一种名为“长序列测序”的新方法,这种方法可以一次分析更大范围的DNA。这使他能够在巴布亚新几内亚人身上发现以前被忽视的变异。

2018年,埃奇勒和其他科学家聚集在NHGRI,讨论人类基因组的研究。在那里,埃奇勒与一位同为科学家的纽约洛克菲勒大学的神经学家和分子生物学家埃里希·贾维斯(Erich Jarvis)重新取得了联系。贾维斯与埃奇勒同样热爱长阅读技术。

一个完整的人类基因组序列是接近的:科学家如何填补空白?

Karen Miga为该项目带来了完成难以读取的DNA片段,她和贾维斯、埃奇勒等人一起,发表了有史以来第一个完全测序的人类基因组,捕获了所有30亿个字母,包括覆盖在染色体末端的混乱、高度重复的部分——称为端粒(telomeres)。这第一个端粒到端粒的基因组序列纠正了先前文献中的许多错误,并发现了大约100个未被注意的可能编码蛋白质的基因。

然而,这并非易事。通常,人类细胞包含两组23条染色体——一组来自卵子,另一组来自精子。但当机器试图同时读取两个序列时,重复序列和其他结构DNA变异就会混淆。为了解决这个问题,科学家们分析了一种细胞系的DNA,这种细胞系来自于臼齿妊娠,即精子与没有细胞核的卵子受精。DNA只含有一组染色体。

相比之下,人类泛基因组项目的350个基因组将来自二倍体细胞系,即包含双亲副本的细胞,因此科学家将不得不使用复杂的计算工具来分离基因组,并确保它们准确捕捉到结构变异。

泛基因组研究已经完成了大约70个详细的基因组。他们的目标是在2024年中期完成所有350个端粒到端粒版本的研究。

科学家们已经在研究将多样性形象化并展示多样性的方法。到目前为止,包括GRCh38参考基因组,惯例是有一个简单的线性表示和一个伴生数据库,列出序列中不同位置的变化,如单字母变化。加州大学圣克鲁兹分校的计算生物学家本尼迪克特·帕滕(Benedict Paten)说:“科学界使用这种方便的线性参考序列已有20年了。”Paten的办公室就在Miga的隔壁,他正在与一个团队合作,以提高泛基因组可视化的复杂性。在这种新的可视化中,彩色线条代表不同的变体。较粗的线条表示更频繁的变化。Paten说:“使人类变异更直观、更容易理解是我们整合泛基因组的任务之一。”

Visualizing a pangenome: infographic that shows how genetic sequences from individuals across the world can be compared.            

 

 

人类泛基因组计划(Human Pangenome Project)将对350人的基因组进行分析,其中许多人参与了“1000个基因组计划”(1000个基因组计划),该计划于2008年启动,旨在对26个不同人群的常见和罕见变异进行分类。作为这项工作的一部分,收集到的DNA样本将从冷库中取出,用于更详细的泛基因组测序项目的长序列。这些人几年前签署的同意书还包括在新项目中使用他们的DNA数据。但是人类基因组计划正在采取进一步的措施,以确保收集和使用基因数据的道德。与其他主要的基因测序工作不同的是,在这些工作中,科学家做出决定,然后只让机构审查委员会(Institutional Review Board)审查,例如,有社会伦理学家,他们“嵌入”决策过程,并不断审查这个项目。

在许多方面,泛基因组计划的领导者正试图克服过去努力遗留下来的棘手的伦理问题。例如,1991年启动的“人类基因组多样性计划”(Human Genome Diversity Project)旨在收集全球人民的DNA信息,但遭到了几个社区的强烈反对。土著群体和其他群体感到他们被当作活化石对待,正走向灭绝。

“科学家收集土著人民的基因组数据主要是为了其他非土著人民的利益,在不考虑土著数据主权的情况下,这是一种继续提取数据的方式,”田纳西州纳什维尔范德比尔特大学的遗传学家和生物伦理学家、纳瓦霍民族成员Krystal Tsosie说。

在接下来的十年里,对未被充分代表的群体的基因研究的道德违背引起了更多的关注,特别是当哈瓦苏派部落在2004年对亚利桑那董事会和亚利桑那州立大学的研究人员提起诉讼时。该部落的成员曾将自己的DNA捐献给2型糖尿病的基因研究,但却发现这些DNA在未经他们同意的情况下被用于精神分裂症和移民研究。

Tsosie说,研究人员还使用了“近亲繁殖”等侮辱性词汇来解释基因现象,这些现象实际上是与种族灭绝事件相关的种群瓶颈的结果。她还说,过去,基因学家在做测序项目时经常使用种族语言,没有正确地认识到殖民主义在科学上的持久遗产,以及它对土著人民构成的威胁。

Members of the Native BioData Consortium use a genome sequencer in a lab            

Joseph Yracheta(最右),本地生物数据联盟成员正在使用基因组测序仪。

 

土著生物数据联盟,这是一个由美国土著科学家和部落成员领导的非盈利研究机构,一直致力于帮助土著群体在自己的领土上获取和运行DNA测序仪。巴尔的摩约翰霍普金斯大学彭博公共卫生学院的公共卫生遗传学家、联盟联合创始人约瑟夫·伊拉切塔(Joseph Yracheta)表示,首台测序仪于2020年12月被送到夏延河苏族保留地。今年2月,Yracheta加入了人类Pangenome项目工作小组,专注于该项目的伦理、法律和社会影响。

没有呈现就没有突变

不仅仅是美国土著社区的倡导者对代表性和数据所有权表示担忧。泛基因组项目没有充分地让来自美国以外地区的研究人员参与进来。现在他们已经联系了非洲人类遗传与健康(H3Africa)项目的领导人,让能够在非洲国家进行测序的非洲科学家参与其中。(然而,似乎没有哪项排序工作能够免受伦理挑战——例如,即使是“H3Africa”项目也不得不跨越不同国家关于参与者数据使用的规则和规范。)

随着研究的深入,科学家们也承认350个基因组并不代表人类的全部多样性。最终,实现这一目标所需的真正基因组数量很难确定,而遗传学经常告诉我们,罕见的差异可能很重要。


相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号