-
生物通官微
陪你抓住生命科技
跳动的脉搏
千年基因解析亚洲人基因组的CNV
【字体: 大 中 小 】 时间:2013年04月15日 来源:千年基因
编辑推荐:
拷贝数变异(CNV)代表了大多数人类基因组多样性。这里,我们开发了一种新方法,即将高分辨率比较基因组杂交(CGH)数据与全基因组测序数据联合,获得亚洲人群常见CNV完整图谱。用含有24M探针的超高分辨率array CGH平台,分析3个亚洲人群韩国人、中国人和日本人中30个人的基因组。
拷贝数变异(CNV)代表了大多数人类基因组多样性。这里,我们开发了一种新方法,即将高分辨率比较基因组杂交(CGH)数据与全基因组测序数据联合,获得亚洲人群常见CNV完整图谱。用含有24M探针的超高分辨率array CGH平台,分析3个亚洲人群韩国人、中国人和日本人中30个人的基因组。一个参考基因组(NA10851, 28.3×)和两个亚洲人基因组(AK1, 27.8×和AK2, 32.0×)的全基因组测序数据被用于将array CGH实验中相对拷贝数信息转换成绝对拷贝数值。我们发现了5,177个CNVs,推测其中3,547个为亚洲人特有的CNVs。这些亚洲人群常见CNVs,对于在这些人群中接下来开展的遗传研究将是一个非常有用的资源。这张找出绝对CNVs的新办法,对于将CNV数据应用到个体化医学将是十分必要的。
1、研究背景
大规模的对个体基因组进行测序,能鉴定出很多影响个体表型的遗传变异,从SNP到结构变异(包括CNV)。但是,目前的测序策略产生的是短read,这给准确鉴定结构变异设下了诸多限制。这里,我们开发出一种策略,将高分辨率array CGH(aCGH)信息和全基因组测序数据整合起来,全面地鉴定和描绘出三个亚洲群体中的常见CNV。
2、研究策略
样本:
此方法被用于30个亚洲女性,包括10个韩国人(KOR), 10个HapMap计划里的中国人(CHB) 和10个HapMap计划里的日本人(JPT)。其中从来自同一家庭的10个韩国人的静脉血中提取DNA,其他样本包括10个CHB和10个JPT,2个CEU个体(NA10851,NA12878)和1个YRI个体(NA19240)的DNA都取自Coriell Cell Repositories (Coriell Institute)。NA12878作为所有aCGH实验的对照,它也是aCGH试验中最常被作为对照的样本之一。
实验方法:
图1. 亚洲人群CNV项目总述
含有24M探针的超高分辨率Agilent array CGH平台,是由24个chip组成的全基因组tiling array,每个chip都是定制的Agilent 1M芯片,探针设计基于人类参考基因组(hg18)。检测CNV的分辨率是438bp。
对30个体进行aCGH实验,在以前CNV研究中常常作为control的NA10851作为本研究aCGH实验的control。对AK1, NA12878 和 NA19240也进行aCGH 实验。AK1, AK2和NA10851的基因组数据被用于过滤假阳性CNV而获得绝对CNV。AK1是韩国男性,已有27.8×基因组数据。AK2是韩国女性,已有32.0×基因组数据。由于所有aCGH 实验都将NA12878作为control,对其进行28.3×全基因组测序。通过研究这些样本,构建出准确系统的亚洲群体常见CNV图谱(见图1)。
3、研究结果
相对与绝对CNV转换:
通过aCGH实验共发现251,573 个候选CNVs。根据AK1和NA10851的read-depth信息,开发出一个标准来最优化aCGH和DNA测序信息之间一致性,通过比较AK1和NA10851对应区域的aCGH log2值和序列read-depth数据确定true CNV。应用此标准,过滤得到21,905个CNVs。为了进一步过滤,需要知道作为control的NA10851的绝对拷贝数状态,这要用到NA10851的全基因组测序产生的read-depth数据,因为它的read-depth数据代表了NA10851与人类参考基因组(hg18)比较后的拷贝数状态。
下一步,根据NA10851的read-depth序列信息,从aCGH实验过滤得到的CNV被分为两组:‘overt’calls(NA10851有正常的read depth)和‘obscure’calls(NA10851的拷贝数不同于hg18)。这样,21,905个CNVs 中10,980可能是错误的(obscure calls),因为这些区域里的拷贝值不等于2。其中4,970个CNV因为拥有二倍体的拷贝数,在被转换成绝对拷贝数状态后被去除。再根据NA10851的read-depth序列数据调整obscure calls的log2 ratios,获得基于人类参考基因组(hg18)而非NA10851的absolute CNVs。这样,由于具有相同拷贝数而不能被aCGH鉴定的3,164个covert CNVs,被恢复成CNVs。
最后,总共获得20,099 个绝对拷贝数状态CNV,其中9,174 (3,164个covert calls和6,010 个obscure calls)是根据NA10851的read-depth序列信息更正的(见图2)。
图2. 相对与绝对CNV转换
本研究最终鉴定出20,099个CNV(见图3),平均在每个被研究的亚洲人上发现670个CNVs,覆盖总DNA序列的11.31Mb,平均每人涉及389个RefSeq基因。随机选择116个CNVs并进行1,881个qPCR实验。总共1,717个qPCR实验与我们的aCGH数据有关,预测值为91%。所有CNV中,72.6%的CNV拷贝数<2(拷贝数缺失)。拷贝数缺失(拷贝数<2)和增加(拷贝数>2)的CNV片段平均长度分别是11.8k和30.3k。在基因区,拷贝数增加多余拷贝数缺失,可能是因为基因区拷贝数的增加造成有害影响的可能性更低,更不可能导致进化选择的处罚。
图3. 33个体的拷贝数增加和缺失频率(a绝对拷贝数增加的分布;b相对和绝对拷贝数增加和缺失在不同大小情况下的分布)
亚洲人特异CNVE:
为了比较个体间的CNV片段,将50%重叠的CNV合并成一组,即CNVE (CNV element) ,从而获得共5,177个绝对拷贝数状态下的CNVEs,平均长度为2,667bp,共覆盖95.40Mb(3.32%)人类参考基因组。通过与GSV对450个HapMap个体进行基因分型得到的4,978个CNVEs进行比较,鉴定出3,547个潜在的亚洲人特异CNVEs(见图4)。
图4. 亚洲人群特异性CNVEs
Gene Ontology:
与本研究发现的常见CNVEs重叠的基因,通过PANTHER gene ontology进行分类。拷贝数增加倾向于与核酸代谢和发育过程有关的基因,拷贝数缺失则富集在细胞粘附基因上。在信号传导,免疫和感官知觉等基因上同时有拷贝数增加和缺失(见图5)。
图5. 编码序列与30个亚洲人中常见拷贝数增加(外圈)和缺失(内圈)重叠的基因功能分类
CNV平台依赖性分析:
为了鉴定CNV与平台的依赖性,首先比较AK1在Agilent 24M及NimbleGen 42M平台上的数据,然后将两个HapMap个体在Agilent 24M平台上发现的CNV和它们在Genomic Structural Variation Consortium的基因分型数据比较后发现,3,547个潜在亚洲人特异性CNVEs中,约40%依赖于Agilent 24M平台,约60%真正是亚洲群体特有的(见图6)。
图6. aCGH平台对发现CNV的影响
4、结论
• 本研究将高分辨率aCGH方法结合新一代测序数据,这种新方法的分辨率足以检测低至438bp的CNVs,最终系统性鉴定了亚洲人群的常见CNVs(最小等位基因>1.7%)。本研究发现的很多新CNVs,很可能是由于我们采用的aCGH平台增加了分辨率和具有系统性等特点,并只关注CNV研究中相对被忽视的亚洲群体。
• 本研究为大规模基因组测序例如****提供了一个范例,通过将DNA测序数据与高分辨率aCGH结合,用于更准确地鉴定个人基因组里的CNV。还为将来亚洲群体基因组药物研究提供了指导。
参考文献
Discovery of common Asian copy number variants using integrated high-resolution array CGH and massively parallel DNA sequencing. Nature Genetics,2010.