方法学：“千人基因组”项目技术进步

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

方法学：“千人基因组”项目技术进步

【字体：大中小】 时间：2010年11月01日 来源：生物通

编辑推荐：

　　在最新“千人基因组”研究成果中，研究人员也获得了技术方面的一些进步，比如研究人员针对大量的样本进行全基因组测序的成本很高这一问题，采取了新的策略，针对多拷贝基因进行研究的障碍，研究人员又开发出了几种分析和计算方法。这些方法不仅帮助这项研究取得了重要进展，而且也为今后大规模遗传变异研究提供了有效的技术手段。

生物通报道： “千人基因组”计划是2008年初，由来自英国桑格研究所，美国国立人类基因组研究所，中国深圳华大基因研究院等多家机构启动的一项测序计划，在这一计划中，科学家们将对全球各地至少1000个（目前是2000个人左右）人类个体的基因组进行测序，寻找基因与人类疾病间的秘密关系。通过这些测序也将生成一个庞大的、公开的人类基因变异目录，有助于进行分析以及个体化医疗。

上周出版的Nature，和Science杂志公布了这一计划的又一重要成果：对三个人群的179人按低覆盖率进行全基因组测序；对两个由“母亲-父亲-孩子”组成的三人组按高覆盖率进行测序；对来自七个人群的697人进行以外显子为目标的测序。

这项研究找出了1000多万个大大小小的基因变种，其中约800万个都是以前所未知的。对于人群携带率在1%以上的基因变种，本次研究的覆盖率达到95%以上。这一成果在医学等领域有很高的应用价值，比如通过参照图谱，可以方便地找出致病的基因变种。

在这一最新成果中，研究人员也获得了技术方面的一些进步，比如研究人员针对大量的样本进行全基因组测序的成本很高这一问题，采取了新的策略，针对多拷贝基因进行研究的障碍，研究人员又开发出了几种分析和计算方法。这些方法不仅帮助这项研究取得了重要进展，而且也为今后大规模遗传变异研究提供了有效的技术手段。

首先由于对大量的样本进行全基因组测序的成本很高，为提高效率研究人员采用了两种方法：一种叫“低覆盖”的方法，将很多人的部分数据结合起来；另一种方法只对蛋白质编码基因进行研究。事实证明这两种方法都是行之有效的，而且还具有互补的优势。

另外对于重复DNA序列的数量及核苷酸排列上细微且重要的差异难以发现这一问题，研究人员在这里运用的技术方法也值得我们借鉴。

基因测序技术发展迅速。目前我们面临的重大挑战是如何从众多数据中获取准确基因信息的方法。其中最大的问题之一是基因拷贝数变异的检测，这种变异是造成个体间差异的主要原因之一，也有可能是某些人患有特异的病症或疾病易感性的重要原因，并在根本上决定了对个体影响的程度。

所谓基因拷贝数变异（copy number variation ，CNV）是指在人类基因组中广泛存在的，从1000bp(碱基对)到数百万bp范围内的缺失、插入、重复和复杂多位点的变异。研究表明，不少人类复杂性状疾病都和拷贝数变异有密切关系。1936年美国遗传学家卡尔文·布里奇斯（Calvin Bridges）他发现遗传了双份的Bar基因的果蝇会发育出非常小的眼睛，他因此发现了拷贝数变异对性状的影响。

2004年冷泉港Michael 教授以及Sebat博士发现了拷贝数变异区域，这是指不同个体基因组拷贝数目改变的区域——这些变异曾经被认为是异常，健康人群中很少发生。之后基因拷贝数变异被认为是人类基因组变异的一种主要途径，这一鉴别方法已被证实是发现鉴别人类疾病基因风险因素的重要方法。

在2009年，冷泉港实验室开发出了一种鉴别基因拷贝变异数敏感准确的方法。这种方法是应用DNA测序技术来寻找人群中个体基因拷贝数变异的基因区域。此方法可以用来鉴别较大范围的拷贝数变异，大小变异均可，这种方法使得研究人员可以准确获得个体全部基因组的信息。

这种测定基因区段克隆数的新方法的基础是一系列的基因序列定位图。当对多个个体进行比较时，可方便的鉴别出克隆数不同的区域。这种新方法应用早期的基因探针技术可鉴别出较小的结构突变。此方法具有重要意义是因为基因克隆数目突变的基因片段长度小于5000碱基对。此方法可以用来检测复杂基因序列中经常发生的基因重排等。

此次“千人基因组”计划采用的就是这种技术革新，同时研究人员也采用了几种分析和计算技术克服了对多拷贝基因进行研究的障碍，他们深入分析和比较了159个个体基因组，在对这些个体全基因组评估过程中，研究人员对多拷贝基因及基因家族进行了精确的分析。

研究人员证实利用新方法可对1900个碱基对长的DNA片段拷贝数进行精确估计，拷贝数的计数范围为0-48之间。人体基因组约由30亿个DNA碱基对组成，碱基对是指一对相互配对的核苷酸，是组成DNA的基本单位。除此之外，他们也在个体特异性拷贝中鉴别了410万个独特的单核苷酸位点，并证实那些重复拷贝或存在于基因组多个不同位点的基因其拷贝数及序列的差异造成了个体基因功能上的差别，揭示了进化过程中这些多拷贝基因发生的改变。

目前已有一些厂家提供了CNVs相关信息的服务，比如Agilent新推出来的新一代人拷贝数变异基因芯片，这一芯片由维康信托病例控制协会（WTCCC）设计，并应用在全球规模最大的CNV研究项目。WTCCC是1936年按照Henry Wellcome爵士遗嘱成立的一家独立的注册慈善信托基金会，这家全球第二大的生物医学研究基金会主持着全球规模最大的CNV研究项目以及CNV与多种人类常见病之间关系的研究。

WTCCC选择Agilent为这一CNV研究项目生产芯片，这种最新的芯片覆盖了11,000多个前期已鉴定的CNV序列区域，因此是一种经过严格验证的CNV相关性研究工具。WTCCC曾利用Agilent 2x105K芯片研究了几种不同疾病的常见结构变异，证实芯片上20-30%的位点在英国人群中都具有双重多态性，通过高质量的芯片数据获得了与变异相关的准确拷贝数值。

CNV 2x105K基因芯片，顾名思义就是每张1 x 3英寸的玻片上有两个芯片，每个芯片包含105,000个探针，Agilent的60 mer高精确度优化探针，提供了灵敏而精确的拷贝数检测。芯片的设计针对有高置信度CNV区域，从而能用较少的数据点获得极高的检出率。

这一产品是AgilentCNV和类似的基因组杂交(CGH)芯片系列产品的最新扩展，其CGH/CNV芯片则是一种覆盖所有基因组的探针，在包括基因区域（内含子区、外显子区）、基因间区域以及对疾病研究极其重要的亚端粒区域（除重复序列外）的分布大致相同。利用CGH/CNV芯片进行CGH分析具有敏感度高、精确度高、分辨率高（平均分辨率1.4kb）的特点，同时还可检测福尔马林固定的石蜡样品，实验数据可信度高，仅需1.5μg基因组DNA即可进行实验。

除此之外，Affymetrix公司的GeneChip®aCGH芯片也能进行人类基因组CNV分析，这种芯片采用的是高密度的芯片制备技术，通过改进的长探针合成技术（约49mer），专门针对人类基因组序列变异检测推出了人类细胞遗传学全基因组2.7M芯片（Cytogenetics Whole-Genome 2.7M），在高分辨率下实现对人类基因组的检测。芯片覆盖全基因组约270万个标记（探针间隔距离中位值为735bp），其中包括约40万个SNP位点，因此，该芯片不但可以实现拷贝数变异的高分辨率检测，发现微小缺失和扩增，还可以检测染色体中性杂合性缺失（copy neutral LOH）、单亲二体病（UPD）及嵌合现象。另外还有Illumina的CNV/LOH研究芯片适用于杂合性缺失（LOH）和CNV的分析。

（生物通：张迪）

原文摘要：

1000 Genomes Project Gives New Map of Genetic Diversity

By sequencing hundreds of human genomes, the 1000 Genomes Project has produced the most detailed catalog of human variation ever: a compendium of millions of previously unknown single-nucleotide polymorphisms and other variants. This treasure chest of genetic data is described in the 28 October issue of Nature. Researchers are already using those data to pinpoint DNA involved in both complex and inherited diseases. Also, on page 641 of this week's issue of Science, a second analysis describes an approach for determining another aspect of genetic variation that arises when genes and other stretches of DNA are duplicated. There is growing interest in these so-called copy number variants because of their potential ties to disease risk.

A map of human genome variation from population-scale sequencing

The 1000 Genomes Project aims to provide a deep characterization of human genome sequence variation as a foundation for investigating the relationship between genotype and phenotype. Here we present results of the pilot phase of the project, designed to develop and compare different strategies for genome-wide sequencing with high-throughput platforms. We undertook three projects: low-coverage whole-genome sequencing of 179 individuals from four populations; high-coverage sequencing of two mother–father–child trios; and exon-targeted sequencing of 697 individuals from seven populations. We describe the location, allele frequency and local haplotype structure of approximately 15 million single nucleotide polymorphisms, 1 million short insertions and deletions, and 20,000 structural variants, most of which were previously undescribed. We show that, because we have catalogued the vast majority of common variation, over 95% of the currently accessible variants found in any individual are present in this data set. On average, each person is found to carry approximately 250 to 300 loss-of-function variants in annotated genes and 50 to 100 variants previously implicated in inherited disorders. We demonstrate how these results can be used to inform association and functional studies. From the two trios, we directly estimate the rate of de novo germline base substitution mutations to be approximately 10−8 per base pair per generation. We explore the data with regard to signatures of natural selection, and identify a marked reduction of genetic variation in the neighbourhood of genes, due to selection at linked sites. These methods and public data will support the next phase of human genetic research.

热点排行

新闻专题

联系信箱：

粤ICP备09063491号