千年基因完成第一个韩国人基因组

【字体: 时间:2013年04月15日 来源:千年基因

编辑推荐:

  最近测序技术的进展开启了个人基因组时代。至今,已经报道了三个不同地域祖先的后代的个人基因组序列,他们分别是一个约鲁巴非洲人,两个具有西北欧洲血统的人和一个中国人。这里我们提供了一个高度注释的韩国人全基因组序列,即AK1。AK1的基因组是通过一种严格的综合研究方法确定的,包括全基因组鸟枪法测序(27.8X),BAC(bacterial artificial chromosome)测序,含有超过24M探针的个性化芯片进行高分辨率比较基因组杂交(CGH)。

最近测序技术的进展开启了个人基因组时代。至今,已经报道了三个不同地域祖先的后代的个人基因组序列,他们分别是一个约鲁巴非洲人,两个具有西北欧洲血统的人和一个中国人。这里我们提供了一个高度注释的韩国人全基因组序列,即AK1。AK1的基因组是通过一种严格的综合研究方法确定的,包括全基因组鸟枪法测序(27.8X),BAC(bacterial artificial chromosome)测序,含有超过24M探针的个性化芯片进行高分辨率比较基因组杂交(CGH)。通过将几个不同进化分支种群与NCBI上的参考序列比对,发现了近3.45M个SNPs,其中包括10,162个非同义突变,170,202个插入及缺失突变(indels)。在整个基因组范围内,SNP和indel的密度之间有很强的关联性。本研究还应用严格的标准发现了很多有临床意义的CNV突变。我们发现的这些SNP、编码区的indel和结构变异也解释了一些潜在的医学性状。通过整合几个不同进化分支种群的人类全基因组序列,将有助于对遗传祖先、迁徙模式和种群瓶颈的理解。

1、研究策略

样本:

一个染色体核型正常的健康韩国成年人AK1。

实验方法:

a. 利用传统方法构建AK1基因组DNA BAC文库,然后利用ABI3730xI DNA测序仪对100,000个BAC克隆进行双向末端测序。

b. 利用Illumina GA平台进行补充的测序:
第一、对一些选定区域用重叠BAC克隆进行高深度测序,例如选择了20号染色体进行155×测序,以及其它390个容易受CNV影响的区域,平均测序深度是151×。

第二、对不同长度插入片段建成的AK1文库进行平均深度为27.8x的全基因组测序。其中,shotgun文库是混合BAC文库或者是基因组DNA进行构建的,利用Illumina 36SE,36PE,106PE测序策略。这可以减少背景噪音,错误率和更长reads里的GC偏向,从而增加序列产出和read长度。

CNV检测是用定制的含24M探针的CGH芯片、1132个BAC克隆进行深度测序和全基因组测序共同完成(见表1)。

表1. 文库和测序数据概述

2、研究结果

SNP:
产生序列的平均质量是24(Q score),用GSNAP 比对工具, 74.4%的序列被比对到参考人类基因组 (NCBI build 36.3),覆盖99.8%的参考基因组。除了着丝粒和异染色质区域的gap外,没有覆盖度偏向。在AK1基因组检测到3,453,653 SNPs,其中17.1% 是新发现的,10,162个是非同义的。结果经Illumina 610K基因分型芯片,20号染色体BAC克隆深度测序和Sanger测序验证(见图1)。

在AK1中检测到的SNPs数量与James Watson类似, 多于Craig Venter和中国YH, 但是少于 Yoruba African, NA18507。这可能是和实验过程或者是人种差异有关系。在检测到的9,527,824个SNP中,21%是AK1所特有的,8%是这五个被测序的人所共有的。AK1共有2,110,403个杂合SNPs, SNP多样性高于Venter, Watson 和YH,低于Yoruba (heterozygous/homozygous SNP 为1.57)。


 
图1. 五个基因组的地理分布图、维恩图及indel分布和SNP-indel密度关联

Indel:
共发现170,702个indel,62%是新发现的,55.9%是deletion。大小范围是-29到+5核苷酸。212个indels位于编码区,是YH的三倍,Venter基因组的四分之一。Indel结果经Sanger测序和20号染色体BAC克隆深度测序确认,显示indel的检测敏感度小于80%,阳性预测值为100%。在全基因组范围内,SNP和indel的密度有相关性。并且这种相关性不是因为技术人为引起的,因为在YH的基因组中也能检测到。

Deletion的长度范围是277-196,900bp,总共2.4Mb。其中148个之前不存在于DGV中(2008.11.10)。找到77个拷贝数增加,共7.0Mb。其中33(42.8%)不存在于DGV,是新发现的。下图是通过BAC克隆测序和含24M探针的定制CGH结合,以及BAC克隆测序和全基因组测序结合检测deletion和gain的例子(见图2)。


 
图2. AK1基因组变异的示例

比较AK1基因组与YH和Yoruban中检测出的非同义点突变发现,AK1中检测出的突变位点仅有37%是这三个基因组共有的;57%的含有非同义突变位点的基因是这三个基因组共有的。Ontology 分析显示,这些基因的功能主要与环境适应例如感觉功能、免疫功能、及信号转导有关。

利用Trait-o-matic算法得到了773个与临床表型有关的非同义SNP,其中269个是以前研究证实与复杂疾病相关的常见SNP。 另外在人类研究中发现,CNV是与常见的复杂疾病有关的。在AK1中发现有106个基因受到CNV缺失的影响。其中在AK1基因组中缺失的一个基因是LILRA3,大多数亚洲东北部的人都在这个位点有功能降低或者缺失(见图3)。

     
            
图3. 3个基因组间的非同义SNPs比较和AK1变异的潜在影响

3、结论

通过将全基因组鸟枪法测序,BAC测序和定制高分辨率array CGH结合,获得了高度注释的韩国人基因组序列。这种巧妙的结合,提高了SNP,indel和CNV检测的准确性,有助于相邻序列的组装。个人全基因组测序将有助于比较不同基因组之间的差异,最终与表型多样性相结合起来。

参考文献
A highly annotated whole-genome sequence of a Korean individual. Nature ,2009.

了解千年基因外显子组测序服务的更多信息

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号