千年基因解析亚洲人基因组的CNV

【字体: 时间:2013年04月15日 来源:千年基因

编辑推荐:

  拷贝数变异(CNV)代表了大多数人类基因组多样性。这里,我们开发了一种新方法,即将高分辨率比较基因组杂交(CGH)数据与全基因组测序数据联合,获得亚洲人群常见CNV完整图谱。用含有24M探针的超高分辨率array CGH平台,分析3个亚洲人群韩国人、中国人和日本人中30个人的基因组。

拷贝数变异(CNV)代表了大多数人类基因组多样性。这里,我们开发了一种新方法,即将高分辨率比较基因组杂交(CGH)数据与全基因组测序数据联合,获得亚洲人群常见CNV完整图谱。用含有24M探针的超高分辨率array CGH平台,分析3个亚洲人群韩国人、中国人和日本人中30个人的基因组。一个参考基因组(NA10851, 28.3×)和两个亚洲人基因组(AK1, 27.8×和AK2, 32.0×)的全基因组测序数据被用于将array CGH实验中相对拷贝数信息转换成绝对拷贝数值。我们发现了5,177个CNVs,推测其中3,547个为亚洲人特有的CNVs。这些亚洲人群常见CNVs,对于在这些人群中接下来开展的遗传研究将是一个非常有用的资源。这张找出绝对CNVs的新办法,对于将CNV数据应用到个体化医学将是十分必要的。

1、研究背景

大规模的对个体基因组进行测序,能鉴定出很多影响个体表型的遗传变异,从SNP到结构变异(包括CNV)。但是,目前的测序策略产生的是短read,这给准确鉴定结构变异设下了诸多限制。这里,我们开发出一种策略,将高分辨率array CGH(aCGH)信息和全基因组测序数据整合起来,全面地鉴定和描绘出三个亚洲群体中的常见CNV。

2、研究策略

样本:

此方法被用于30个亚洲女性,包括10个韩国人(KOR), 10个HapMap计划里的中国人(CHB) 和10个HapMap计划里的日本人(JPT)。其中从来自同一家庭的10个韩国人的静脉血中提取DNA,其他样本包括10个CHB和10个JPT,2个CEU个体(NA10851,NA12878)和1个YRI个体(NA19240)的DNA都取自Coriell Cell Repositories (Coriell Institute)。NA12878作为所有aCGH实验的对照,它也是aCGH试验中最常被作为对照的样本之一。

实验方法:


 
图1. 亚洲人群CNV项目总述

含有24M探针的超高分辨率Agilent array CGH平台,是由24个chip组成的全基因组tiling array,每个chip都是定制的Agilent 1M芯片,探针设计基于人类参考基因组(hg18)。检测CNV的分辨率是438bp。

对30个体进行aCGH实验,在以前CNV研究中常常作为control的NA10851作为本研究aCGH实验的control。对AK1, NA12878 和 NA19240也进行aCGH 实验。AK1, AK2和NA10851的基因组数据被用于过滤假阳性CNV而获得绝对CNV。AK1是韩国男性,已有27.8×基因组数据。AK2是韩国女性,已有32.0×基因组数据。由于所有aCGH 实验都将NA12878作为control,对其进行28.3×全基因组测序。通过研究这些样本,构建出准确系统的亚洲群体常见CNV图谱(见图1)。

3、研究结果

相对与绝对CNV转换:

通过aCGH实验共发现251,573 个候选CNVs。根据AK1和NA10851的read-depth信息,开发出一个标准来最优化aCGH和DNA测序信息之间一致性,通过比较AK1和NA10851对应区域的aCGH log2值和序列read-depth数据确定true CNV。应用此标准,过滤得到21,905个CNVs。为了进一步过滤,需要知道作为control的NA10851的绝对拷贝数状态,这要用到NA10851的全基因组测序产生的read-depth数据,因为它的read-depth数据代表了NA10851与人类参考基因组(hg18)比较后的拷贝数状态。

下一步,根据NA10851的read-depth序列信息,从aCGH实验过滤得到的CNV被分为两组:‘overt’calls(NA10851有正常的read depth)和‘obscure’calls(NA10851的拷贝数不同于hg18)。这样,21,905个CNVs 中10,980可能是错误的(obscure calls),因为这些区域里的拷贝值不等于2。其中4,970个CNV因为拥有二倍体的拷贝数,在被转换成绝对拷贝数状态后被去除。再根据NA10851的read-depth序列数据调整obscure calls的log2 ratios,获得基于人类参考基因组(hg18)而非NA10851的absolute CNVs。这样,由于具有相同拷贝数而不能被aCGH鉴定的3,164个covert CNVs,被恢复成CNVs。

最后,总共获得20,099 个绝对拷贝数状态CNV,其中9,174 (3,164个covert calls和6,010 个obscure calls)是根据NA10851的read-depth序列信息更正的(见图2)。


 
图2. 相对与绝对CNV转换

本研究最终鉴定出20,099个CNV(见图3),平均在每个被研究的亚洲人上发现670个CNVs,覆盖总DNA序列的11.31Mb,平均每人涉及389个RefSeq基因。随机选择116个CNVs并进行1,881个qPCR实验。总共1,717个qPCR实验与我们的aCGH数据有关,预测值为91%。所有CNV中,72.6%的CNV拷贝数<2(拷贝数缺失)。拷贝数缺失(拷贝数<2)和增加(拷贝数>2)的CNV片段平均长度分别是11.8k和30.3k。在基因区,拷贝数增加多余拷贝数缺失,可能是因为基因区拷贝数的增加造成有害影响的可能性更低,更不可能导致进化选择的处罚。

图3. 33个体的拷贝数增加和缺失频率(a绝对拷贝数增加的分布;b相对和绝对拷贝数增加和缺失在不同大小情况下的分布)

亚洲人特异CNVE:
为了比较个体间的CNV片段,将50%重叠的CNV合并成一组,即CNVE (CNV element) ,从而获得共5,177个绝对拷贝数状态下的CNVEs,平均长度为2,667bp,共覆盖95.40Mb(3.32%)人类参考基因组。通过与GSV对450个HapMap个体进行基因分型得到的4,978个CNVEs进行比较,鉴定出3,547个潜在的亚洲人特异CNVEs(见图4)。

图4. 亚洲人群特异性CNVEs

Gene Ontology:
与本研究发现的常见CNVEs重叠的基因,通过PANTHER gene ontology进行分类。拷贝数增加倾向于与核酸代谢和发育过程有关的基因,拷贝数缺失则富集在细胞粘附基因上。在信号传导,免疫和感官知觉等基因上同时有拷贝数增加和缺失(见图5)。

图5. 编码序列与30个亚洲人中常见拷贝数增加(外圈)和缺失(内圈)重叠的基因功能分类

CNV平台依赖性分析:
为了鉴定CNV与平台的依赖性,首先比较AK1在Agilent 24M及NimbleGen 42M平台上的数据,然后将两个HapMap个体在Agilent 24M平台上发现的CNV和它们在Genomic Structural Variation Consortium的基因分型数据比较后发现,3,547个潜在亚洲人特异性CNVEs中,约40%依赖于Agilent 24M平台,约60%真正是亚洲群体特有的(见图6)。

图6. aCGH平台对发现CNV的影响

4、结论

• 本研究将高分辨率aCGH方法结合新一代测序数据,这种新方法的分辨率足以检测低至438bp的CNVs,最终系统性鉴定了亚洲人群的常见CNVs(最小等位基因>1.7%)。本研究发现的很多新CNVs,很可能是由于我们采用的aCGH平台增加了分辨率和具有系统性等特点,并只关注CNV研究中相对被忽视的亚洲群体。
• 本研究为大规模基因组测序例如****提供了一个范例,通过将DNA测序数据与高分辨率aCGH结合,用于更准确地鉴定个人基因组里的CNV。还为将来亚洲群体基因组药物研究提供了指导。

参考文献
Discovery of common Asian copy number variants using integrated high-resolution array CGH and massively parallel DNA sequencing. Nature Genetics,2010.

了解千年基因外显子组测序服务的更多信息

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号