人类泛基因组参考将使对基因组多样性的认识更加全面和公平

【字体: 时间:2023年05月11日 来源:AAAS

编辑推荐:

  研究人员发布了第一个人类泛基因组的草案,这是一个新的、更完整的基因组学参考,结合了来自不同祖先背景的47个个体的遗传物质,从而可以更深入、更准确地了解世界范围内的基因组多样性。

  

新的泛基因组参考结合了来自不同祖先背景的47个个体的遗传物质,结合长度长测序技术,为原有基因组参考新增加了1.19亿个碱基。新的泛基因组提供了人类遗传多样性的代表,以更深入、更准确地了解世界范围内的基因组多样性,这是单一参考基因组无法实现的。正如今天发表在《自然》、《基因组研究》、《自然生物技术》和《自然方法》杂志上的一系列开创性论文所显示的那样,这种方法高度准确、更完整,大大地增加了对人类基因组变异的检测。

新的泛基因组参考是由人类泛基因组参考联盟(HPRC)制作的,该联盟由UCSC生物分子工程副教授Benedict Paten和生物分子工程助理教授Karen Miga共同领导,现在可以在UCSC基因组浏览器的组装中心使用。该项目将持续到2024年,届时研究人员计划发布包含350个个体基因组信息的最终泛基因组。

了解基因组变异

每个人的基因组都有细微的差异——与其他人相比,平均差异约为0.4%——了解这些差异可以深入了解他们的健康状况,帮助诊断疾病,预测医疗结果,指导治疗。使用泛基因组参考将提高科学家在未来研究中检测和理解变异的能力。

通常,当科学家和临床医生研究个体的基因组以寻找变异时,他们会将个体的DNA与标准参考的DNA进行比较,以确定一个或多个碱基对的差异。原有的参考基因组主要主要来自一个个体,是每条人类染色体的单一序列代表,并且已经有近20年的历史了。从根本上讲原有参考是有限的,因为它不能代表人类群体中存在的丰富的遗传变异。这在基因组分析中引入了一个称为参考偏差的问题。

相比之下,新的泛基因组是一个参考,结合了来自不同祖先背景的47个个体的基因组。泛基因组在序列具有相同碱基的区域看起来像一个线性参考,并扩展以显示存在差异的区域。它同时代表了许多不同版本的人类基因组序列,并为科学家提供了一个更准确的比较点,以比较存在于某些人群而不存在于其他人群中的变异。

“我们通过对不同的人进行抽样,并将他们纳入每个人都可以使用的结构,从而在参考文献中引入更多的多样性和公平性,”论文的资深作者Paten说。“一个基因组不足以代表所有人——泛基因组最终将具有包容性和代表性。”加州大学圣迭戈分校HPRC生产中心主任Miga说:“一个基因组不可能代表我们所知道的在世界各地可以观察和研究的所有丰富的变异。”“人类泛基因组参考资料的首要目标是试图扩大参考资源的代表性,使其在研究人类物种时更具包容性和更公平,作为参考资料的集合,而不仅仅是一个。”

基因组变异可以很小,仅由一个或几个DNA碱基的差异组成,也可以是大的结构变异,分类为50个碱基对或更大的变异。这些较大的结构变异可能对健康产生重要影响。由于原有测序技术的限制和使用单一参考序列的带来的偏见,研究人员无法识别人类基因组中存在的70%以上的结构变异。

在新的泛基因组参考中新增的1.19亿个碱基中,大约有9000万个来自结构变异。结构变异是复杂的,可能是序列的反转、插入、缺失或串联重复——两个或多个碱基重复多次的片段。这些新的碱基将帮助研究人员研究基因组中以前没有参考的区域,并有可能在未来的研究中将结构变异与疾病联系起来。使用泛基因组参考进行基因组分析,与使用标准参考相比,结构变异的检测增加了104%。由于泛基因组中存在的数据量增加,泛基因组参考还提高了调用小变异(只有几个碱基长)的准确性,提高了约34%。

“现在,我们可以绘制出更多的结构变异,所以我们在基因组中发现了以前没有的特征和区域,”Miga说。“这很令人兴奋,因为它使我们能够以一种独特的方式研究基因调控,这是我们以前无法研究的,因为这些区域可能被不恰当地绘制出来,或者完全被忽略了。”

每个人都有一对染色体,一组遗传自母亲,另一组遗传自父亲。泛基因组参考中存在的个体基因组包含单倍型解析信息,这意味着它可以自信地区分两组亲本染色体——这是一项重大的科学成就。掌握这些信息将有助于科学家更好地了解各种基因和疾病是如何遗传的。

这也意味着目前的参考实际上包括94个不同的基因组序列(47x2),目标是到2024年达到700个。

创建泛基因组

通过先进的计算技术的发展,将多个基因组序列排列成一个可用的参考结构,称为泛基因组图,使泛基因组成为可能。Paten和UCSC计算基因组学实验室的研究人员帮助HPRC开发了创建泛基因组图谱结构所需的算法方法。由于该项目中使用的方法,泛基因组参考中的所有基因组都具有极高的质量和准确性,覆盖了每个人类基因组的99%以上,准确度超过99%。

HPRC项目在很大程度上依赖于从生物样本中读取DNA的长读和超长读测序技术。随着最近的进展,这些技术现在可以一次解码数千到数百万个基因组碱基对。然后通过专门的算法将长段DNA序列组装成更完整的基因组序列。理想情况下,每个组装序列应该代表一条染色体的序列。

“在线性参考中,我们只有一个序列,每个基因只有一个表示,”UCSC生物信息学博士候选人、主要论文的共同第一作者Mobin Asri说。“但我们知道,我们的基因在人群中有不同的变异。使用泛基因组图,我们希望在一个结构中拥有所有这些变化,而图是实现这一目标的自然方式。”

长读取测序包含大约百分之一的错误,现有的组装算法也还并不完美,这可能导致组装序列在某些位置出现错误。为了检查和纠正这些错误,个体基因组通过多种工具进行测序和组装,包括Asri开发的可靠性流程。一旦经过这些工具的处理,研究人员就可以确保组装的准确性和完整性。在通过Asri的流程后,各种基因组通过复杂的算法方法编译成泛基因组图结构。从视觉上看,基因组图允许研究人员将不同参考序列的差异视为共享路径上的不同区域。

构建可访问资源

泛基因组草案中的所有前47个二倍体基因组均来自参与1000基因组计划(1000G)的个人,该计划是一项有影响力的努力,该计划从公开同意的样本中创建了一个常见的人类遗传变异目录,并于2015年完成。这些样本的公开同意状态允许任何研究人员访问这些资源,而没有通常伴随基因组研究的隐私障碍,目的是使尽可能多的人可以访问泛基因组。Miga说:“成为一种公共资源是人类泛基因组参考成功的基础。”“它必须能够向世界各地的所有研究人员开放,这样我们才能把它作为基础。”

HPRC团队的重点是外联工作,以确保泛基因组是一种有用的资源,将在世界各地的诊所得到利用。这意味着便于注释、反馈和来自使用泛基因组参考进行研究的研究人员的输入。Paten说:“泛基因组草案是一个重要的原则证明,我们希望它能影响很多人,让他们思考泛基因组以及它如何影响他们的工作。”“展望未来,我们看到了与其他团体的大量接触——需要很多不同的人来建立一个将成为大型社区资源的东西。”

除了关注可访问性外,HPRC项目还有一个专门的道德团队,专注于该项目的社会和法律影响。他们正在努力预测具有挑战性的问题,帮助指导知情同意,优先考虑不同样本的研究,探索与临床采用有关的可能的监管问题,并与国际和土著社区合作,将他们的基因组序列纳入这些更广泛的努力中。

继承遗产和未来的工作

人类泛基因组是科学家们几十年来努力了解人类生命背后的生物密码的延续。2000年时Jim Kent还是加州大学圣迭戈分校的研究生,编写了汇编人类基因组第一份工作草案的代码。加州大学圣迭戈分校的科学家发表了这篇论文,对任何想要使用它的人开放。从那时起,加州大学圣迭戈分校一直走在基因组学研究的前沿。Jim现在是基因组研究所的研究科学家,也是加州大学圣迭戈分校基因组浏览器的负责人。

2022年4月,加州大学圣迭戈分校的Karen Miga共同领导了端粒到端粒联盟,完成了人类基因组的第一次完整测序,填补了长期以来科学家们无法找到的缺失的复杂参考区域。

UCSC基因组研究所的科学主任David Haussler说:“自2000年以来,我们已经对一个基因组进行了一系列越来越精确的描述。”他领导了UCSC最初的人类基因组计划团队,并为泛基因组计划提供建议。“但无论你多么准确地代表一个基因组,它都不能代表全人类。现在是一个转折点:不再是一个标准的人类基因组学,而是每个人的基因组学。”

研究人员正在朝着2024年完成全泛基因组的目标取得进展。该团队正在招募新的个体来代表一些没有被纳入千人基因组计划的人群——特别是中东和非洲血统的人。作为UCSC数据生产中心的主任,Miga将领导这些工作向前发展。

除了完成最终的泛基因组参考,研究人员正在努力形成一个国际人类泛基因组项目,将与世界各地的研究人员建立伙伴关系。这些伙伴关系将包括双向的技能和知识交流,旨在将创建高质量参考基因组所需的技能和技术提供给全世界的研究人员,使他们能够开展自己的研究。

编译:vivian

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号