千年基因解析亚洲人基因组的CNV

【字体：大中小】 时间：2013年04月15日 来源：千年基因

编辑推荐：

　　拷贝数变异（CNV）代表了大多数人类基因组多样性。这里，我们开发了一种新方法，即将高分辨率比较基因组杂交（CGH）数据与全基因组测序数据联合，获得亚洲人群常见CNV完整图谱。用含有24M探针的超高分辨率array CGH平台，分析3个亚洲人群韩国人、中国人和日本人中30个人的基因组。

拷贝数变异（CNV）代表了大多数人类基因组多样性。这里，我们开发了一种新方法，即将高分辨率比较基因组杂交（CGH）数据与全基因组测序数据联合，获得亚洲人群常见CNV完整图谱。用含有24M探针的超高分辨率array CGH平台，分析3个亚洲人群韩国人、中国人和日本人中30个人的基因组。一个参考基因组(NA10851, 28.3×)和两个亚洲人基因组(AK1, 27.8×和AK2, 32.0×)的全基因组测序数据被用于将array CGH实验中相对拷贝数信息转换成绝对拷贝数值。我们发现了5,177个CNVs，推测其中3,547个为亚洲人特有的CNVs。这些亚洲人群常见CNVs，对于在这些人群中接下来开展的遗传研究将是一个非常有用的资源。这张找出绝对CNVs的新办法，对于将CNV数据应用到个体化医学将是十分必要的。

1、研究背景

大规模的对个体基因组进行测序，能鉴定出很多影响个体表型的遗传变异，从SNP到结构变异（包括CNV）。但是，目前的测序策略产生的是短read，这给准确鉴定结构变异设下了诸多限制。这里，我们开发出一种策略，将高分辨率array CGH（aCGH）信息和全基因组测序数据整合起来，全面地鉴定和描绘出三个亚洲群体中的常见CNV。

2、研究策略

样本：

此方法被用于30个亚洲女性，包括10个韩国人(KOR), 10个HapMap计划里的中国人(CHB) 和10个HapMap计划里的日本人(JPT)。其中从来自同一家庭的10个韩国人的静脉血中提取DNA，其他样本包括10个CHB和10个JPT，2个CEU个体（NA10851，NA12878）和1个YRI个体（NA19240）的DNA都取自Coriell Cell Repositories (Coriell Institute)。NA12878作为所有aCGH实验的对照，它也是aCGH试验中最常被作为对照的样本之一。

实验方法：

图1. 亚洲人群CNV项目总述

含有24M探针的超高分辨率Agilent array CGH平台，是由24个chip组成的全基因组tiling array，每个chip都是定制的Agilent 1M芯片，探针设计基于人类参考基因组（hg18）。检测CNV的分辨率是438bp。

对30个体进行aCGH实验，在以前CNV研究中常常作为control的NA10851作为本研究aCGH实验的control。对AK1, NA12878 和 NA19240也进行aCGH 实验。AK1, AK2和NA10851的基因组数据被用于过滤假阳性CNV而获得绝对CNV。AK1是韩国男性，已有27.8×基因组数据。AK2是韩国女性，已有32.0×基因组数据。由于所有aCGH 实验都将NA12878作为control，对其进行28.3×全基因组测序。通过研究这些样本，构建出准确系统的亚洲群体常见CNV图谱（见图1）。

3、研究结果

相对与绝对CNV转换：

通过aCGH实验共发现251,573 个候选CNVs。根据AK1和NA10851的read-depth信息，开发出一个标准来最优化aCGH和DNA测序信息之间一致性，通过比较AK1和NA10851对应区域的aCGH log2值和序列read-depth数据确定true CNV。应用此标准，过滤得到21,905个CNVs。为了进一步过滤，需要知道作为control的NA10851的绝对拷贝数状态，这要用到NA10851的全基因组测序产生的read-depth数据，因为它的read-depth数据代表了NA10851与人类参考基因组（hg18）比较后的拷贝数状态。

下一步，根据NA10851的read-depth序列信息，从aCGH实验过滤得到的CNV被分为两组：‘overt’calls（NA10851有正常的read depth）和‘obscure’calls（NA10851的拷贝数不同于hg18）。这样，21,905个CNVs 中10,980可能是错误的(obscure calls)，因为这些区域里的拷贝值不等于2。其中4,970个CNV因为拥有二倍体的拷贝数，在被转换成绝对拷贝数状态后被去除。再根据NA10851的read-depth序列数据调整obscure calls的log2 ratios，获得基于人类参考基因组（hg18）而非NA10851的absolute CNVs。这样，由于具有相同拷贝数而不能被aCGH鉴定的3,164个covert CNVs，被恢复成CNVs。

最后，总共获得20,099 个绝对拷贝数状态CNV，其中9,174 (3,164个covert calls和6,010 个obscure calls)是根据NA10851的read-depth序列信息更正的（见图2）。

图2. 相对与绝对CNV转换

本研究最终鉴定出20,099个CNV（见图3），平均在每个被研究的亚洲人上发现670个CNVs，覆盖总DNA序列的11.31Mb，平均每人涉及389个RefSeq基因。随机选择116个CNVs并进行1,881个qPCR实验。总共1,717个qPCR实验与我们的aCGH数据有关，预测值为91%。所有CNV中，72.6%的CNV拷贝数<2（拷贝数缺失）。拷贝数缺失（拷贝数<2）和增加（拷贝数>2）的CNV片段平均长度分别是11.8k和30.3k。在基因区，拷贝数增加多余拷贝数缺失，可能是因为基因区拷贝数的增加造成有害影响的可能性更低，更不可能导致进化选择的处罚。

图3. 33个体的拷贝数增加和缺失频率（a绝对拷贝数增加的分布；b相对和绝对拷贝数增加和缺失在不同大小情况下的分布）

亚洲人特异CNVE：
为了比较个体间的CNV片段，将50%重叠的CNV合并成一组，即CNVE (CNV element) ，从而获得共5,177个绝对拷贝数状态下的CNVEs，平均长度为2,667bp，共覆盖95.40Mb（3.32%）人类参考基因组。通过与GSV对450个HapMap个体进行基因分型得到的4,978个CNVEs进行比较，鉴定出3,547个潜在的亚洲人特异CNVEs（见图4）。

图4. 亚洲人群特异性CNVEs

Gene Ontology：
与本研究发现的常见CNVEs重叠的基因，通过PANTHER gene ontology进行分类。拷贝数增加倾向于与核酸代谢和发育过程有关的基因，拷贝数缺失则富集在细胞粘附基因上。在信号传导，免疫和感官知觉等基因上同时有拷贝数增加和缺失（见图5）。

图5. 编码序列与30个亚洲人中常见拷贝数增加（外圈）和缺失（内圈）重叠的基因功能分类

CNV平台依赖性分析：
为了鉴定CNV与平台的依赖性，首先比较AK1在Agilent 24M及NimbleGen 42M平台上的数据，然后将两个HapMap个体在Agilent 24M平台上发现的CNV和它们在Genomic Structural Variation Consortium的基因分型数据比较后发现，3,547个潜在亚洲人特异性CNVEs中，约40%依赖于Agilent 24M平台，约60%真正是亚洲群体特有的（见图6）。

图6. aCGH平台对发现CNV的影响

4、结论

• 本研究将高分辨率aCGH方法结合新一代测序数据，这种新方法的分辨率足以检测低至438bp的CNVs，最终系统性鉴定了亚洲人群的常见CNVs（最小等位基因>1.7%）。本研究发现的很多新CNVs，很可能是由于我们采用的aCGH平台增加了分辨率和具有系统性等特点，并只关注CNV研究中相对被忽视的亚洲群体。
• 本研究为大规模基因组测序例如****提供了一个范例，通过将DNA测序数据与高分辨率aCGH结合，用于更准确地鉴定个人基因组里的CNV。还为将来亚洲群体基因组药物研究提供了指导。

参考文献
Discovery of common Asian copy number variants using integrated high-resolution array CGH and massively parallel DNA sequencing. Nature Genetics,2010.

了解千年基因外显子组测序服务的更多信息