千年基因外显子组测序技术手册

外显子组测序

【字体: 时间:2013年04月15日 来源:千年基因

编辑推荐:

  外显子组的序列仅占全基因组序列的1%左右,但大多数与疾病相关的变异位于外显子区。通过外显子组测序可鉴定约8万个变异,全基因组测序可鉴定300万个变异,因此,与全基因组测序相比,外显子组测序不仅费用较低,数据阐释也更为简单。外显子组测序技术以其经济、有效的优势广泛应用于孟德尔遗传病、罕见综合征及复杂疾病的研究,并于2010年被Science杂志评为十大突破之一。

一、技术简介

随着社会生活水平的提高,人类健康问题也越来越多的受到社会各界的关注。传统的遗传疾病研究模式是采用显带分析、核型分析、FISH、遗传标记、PCR-DNA测序等传统试验方法来寻找与疾病相关的DNA变异,这些方法各有各的特点,但都存在工作量大、效率低、分辨率低等一系列的限制。新一代高通量测序技术的出现,为遗传疾病的研究提供了全新的思路。

2009年,基因组定向捕获工具的出现使外显子组测序成为可能。2009年9月,第一篇关于外显子组测序的原理验证文章于Nature杂志上发表。来自华盛顿大学的Jay Shendure通过对四名Freeman-Sheldon综合征患者的外显子组测序,找到了已知的致病基因MYH3。随后,该团队将这种技术应用于米勒综合征的研究,通过对患者编码区序列的捕获及深度测序,鉴定出单个候选基因DHODH,并经Sanger测序验证其他患者中存在该基因的突变。

外显子组的序列仅占全基因组序列的1%左右,但大多数与疾病相关的变异位于外显子区。通过外显子组测序可鉴定约8万个变异,全基因组测序可鉴定300万个变异,因此,与全基因组测序相比,外显子组测序不仅费用较低,数据阐释也更为简单。外显子组测序技术以其经济、有效的优势广泛应用于孟德尔遗传病、罕见综合征及复杂疾病的研究,并于2010年被Science杂志评为十大突破之一。近两年外显子组研究相关的SCI文章已发表千余篇,已对数百种疾病展开了深入研究,研究结果推动了人类医学的研究。

二、技术优势

• 直接对蛋白编码序列进行序列测定,找出影响蛋白结构的变异。
• 高深度测序,可发现常见变异及频率低于1%的罕见变异。
• 针对外显子组区域测序,约占基因组的1%,有效降低费用、周期、工作量。

三、应用举例

疾病

遗传模式

致病基因

Freeman-Sheldon综合征

AD

MYH3

Kabuki 综合征

AD

MLL2

Schinzel-Giedion 综合征

AR

SETBP1

Sensenbrenner 综合征

AR

WDR35

Fowler 综合征

AR

FLVCR2

Perrault 综合征

AR

HSD17B4

Hajdu-Cheney 综合征

AD

NOTCH2

成骨不全

AR

SERPINF1

米勒综合征

AR

DHODH

Brown-Vialetto-van Laere 综合征

AR

C20orf54

血磷酸脂酶过多智力迟钝综合征

AR

PIGV

家族性β-脂蛋白过少血症

AD

ANGPTL3

色素性视网膜炎

AR

DHDDS

非综合征性耳聋

AR

GPSM2

原发性淋巴管性水肿

AD

GJC2

肌萎缩性侧索硬化

AD

VCP

非综合征的智力迟钝

AR

TECR

Van Den Ende-Gupta 综合征

AR

SCARF2

自身免疫性淋巴组织增生症(ALPS)

AR

FADD

小脑共济失调

AD

TGM6

逆向性痤疮

AD

NCSTN

四、方案设计

相比传统测序,外显子测序能够迅速的获得所有外显子区域的遗传信息,在大幅提升效率的同时显著降低了研究成本;相比全基因组测序,外显子测序能够在缩短实验周期、减少数据分析量及实验投入的基础上有针对性的得到大部分全基因组测序所能得到的信息。基于外显子组测序良好性价比,该方法目前在国际上已经被广泛的应用于遗传病和癌症研究中。

1. 单基因疾病研究方案

首先需要按照疾病表型对家系成员进行严格筛查,明确其患病情况并进行该疾病研究的背景调查。在找出该疾病已经有一些研究背景和相关的致病基因报道,可通过传统PCR测序方法对已知的疾病相关变异进行验证和初筛;确认所研究的样本中未发现相关的基因变异,那么可以挑选一个或数个相同疾病家系的核心成员成员进行外显子组测序。每个家系中的患病个体选取3-5个样本,正常个体选取1-2名作为对照进行研究。按照疾病模型(AD,AR等)及样品的家系信息对测序得到的结果进行分析,缩小候选变异的范围,经过多种注释、筛选后过滤掉对功能无影响的变异及公共数据库中的常见变异,再使用传统PCR测序进行样本扩大化验证及相关的功能研究,最终确定疾病相关变异。

单基因遗传病研究举例:

a. 家系图:


 
b. 分析思路:
1). 隐性纯合突变致病:两个患者共享相同的纯合突变,父母为杂合携带者。
2). 复合杂合突变致病:两个患者具有相同的突变,即在一个基因内有两个不同的杂合变异,而父母分别为这两个杂合突变的携带者。
3). 显性模式(新生突变):找两个患者共有的杂合突变,而父母不带有该突变。

c. 分析结果示意:

若样本为散发样本,由于样本间没有血缘关系,遗传背景相差较大,测序得到的结果也较难分析。为了更为准确的得到有价值的结果,使用散发样本进行外显子组测序要求的样本数目比家系样本要多一些。一般建议至少做30个患病个体样本以上的平行测序分析。对大量患病个体的测序数据进行多样本分析,从而确定候选疾病相关变异,再用传统PCR测序在其他的相同疾病患病个体和正常人群中做进一步验证。

2. 复杂疾病及癌症的研究方案

对于复杂疾病,首先应该选择具有遗传性较高的病例作为研究对象,一般需要满足以下几个特点:a. 与疾病相关;b. 高度遗传;c. 在患者中表现较早,表型一致,高外显率;d. 疾病的发病机制相似。整体的研究思路一般是通过适量样本的外显子测序(患病和健康个体各50例)找到与疾病高度关联的低频突变,然后根据这一结果订制合适的芯片,在大样本里进行大规模验证。从而获得精确度更高的疾病相关变异位点。接着可以针对这些位点进行生物学功能研究,从而得到有意义的结果,开发出疾病诊断及治疗的相关产品等。


 
在各种环境因素的作用下,机体某些体细胞染色体上发生的变异破坏或改变了某些重要的生物学过程,体细胞可能会因此异常增生而转变为肿瘤细胞。由于肿瘤细胞具有异质性,同一块肿瘤组织里可能含有不同时期的肿瘤细胞以及正常体细胞,因此它的基因变异情况相对其遗传疾病来说更为复杂。对于肿瘤组织的外显子组测序研究,其最关键的步骤在于样本的选取。目前最常见的情况是分别取同一癌症患者的癌组织和癌旁组织进行比较,样本数目建议至少20对以上。测序后成对的样本进行分析后再进行不同病人间的多样本分析,以此来发掘肿瘤相关的基因变异。由于肿瘤产生的原因包括基因突变,基因表达水平变异,表观遗传变异等多个方面,在利用NGS研究肿瘤的时候,通常会使用多种试验方法相结合的方法,例如转录组测序、全基因组测序、甲基化测序等,相互进行印证,多数据整合分析可以进一步的提高数据的可靠性,提升科研文章档次。

了解千年基因外显子组测序服务的更多信息


五、捕获平台

千年基因可提供目前主流的捕获平台,各平台的特点如下。

捕获平

Illumina TruSeq Exome Enrichment Kit

Roche SeqCap EZ  Human Exome Library

Agilent SureSelect Human All Exon

捕获量

62M

64M

51M

捕获区域

外显子及旁翼区,

部分UTRmiRNA

外显子区及miRNA

外显子区

探针

95 mer DNA

90-105 mer DNA

120 mer RNA

探针数量

340,427

2,100,000

655,872

对常用数据库的覆盖率

97.2% CCDS

96.4% RefSeq

93.2% Gencode

77.6% miRBase

99.8% CCDS

98.4% RefSeq

96.7% Gencode

98.67% miRBase

1.22% of human genomic regions

> 700 human miRNAs

> 300 additional human non-coding RNAs

六、项目流程


 
1、 样本检测

Macrogen拥有通过ISO9001 & ISO13485 & CLIA 国际质量标准认证的大型基因组学实验室,为了严格保证测序质量,检测合格后方可进行建库实验。用于建库的DNA样品标准为样品浓度大于60ng/μl,体积大于20μl,OD260/OD280为1.7-2.0。通过以下三种方式进行样本检测:

• 采用荧光定量的方法对DNA样品进行定量;
• NanoDrop检测OD260/OD280;
• 凝胶电泳检测DNA的状态,是包含蛋白质、RNA污染及是否存在DNA降解。
 
2、 建库

应用TruSeq DNA Sample Prep Kits进行文库制备,起始DNA量为1.2 μg。

3、 捕获

以Illumina的捕获平台为例,应用TruSeq Exome Enrichment Kit捕获外显子组及旁翼区,部分UTR及miRNA,总捕获范围为62M。


 
4、 测序

捕获得到的DNA序列可于Illumina的任一测序仪中进行测序,以HiSeq 2000为例,每run可运行两张flowcell,每个flowcell包括8个lane,100PE模式下每run运行约11天,数据产出为600G。捕获样品经桥式PCR后,置于flowcell中进行测序,外显子组样本一般建议测序125X,便足够进行遗传疾病分析,如肿瘤样本可根据情况适度增加测序深度。

5、 质控

作为Illumina Genome Network全球三家成员之一,Macrogen严格使用Illumina原厂试剂,遵循Illumina Genome Network管理,是Illumina全球最高测序质量的代表。平均大于99% 碱基准确度达Q20,保证大于85% 碱基准确度达Q30,平均clean data占raw data 90% 以上。对于外显子组项目,约90%的外显子区域覆盖度达到10× 以上,保证最高的测序均一性。

a. 原始数据

HiSeq 2000平台产出的原始数据为Fastq格式,以下是对该格式的详细说明:

@HWI-ST1203:231:C1NDLACXX:7:1101:1837:2139 1:N:0:AGTCAA
TTCCACTTAAAAATACAAGAGCACAAATCCACATTTATTTATTGATTTTTCGTTAGTTTAAATCCTTGAGGGGTACAGCATCACTCGGATTCTGTGTCCAA
+
CCCFDFFFHHHHHJJJJIJJJJJJJJIJIJIJFHJJGJEIEIGIIJIJIIGIDGGIIHI@HHEHIIIIIJ=CHABBDFFFFEEDEEDBBDDCDDCCDDCDC

对于以上Fastq序列,第一行以@开头,后面是read的ID以及其他信息;第二行代表read的序列;第三行一般以“+”表示;第四行代表read的质量信息,与第二行的碱基序列相对应。其中,为了便于计算机进行存储,质量值以字符来表示,每个字符所代表的ASCII码减去33即为该碱基对应的质量值。根据相应的公式(Q=-10lgP),即可计算每个碱基被测错的概率,其中Q20代表碱基被测错的概率为1%,Q30代表碱基被测错的概率为1‰。 

将以上Fastq序列的质量信息转换成相应的质量值,结果如下。在该read中,只有一个碱基的质量值为28,其余碱基的质量值均大于30。
34,34,34,37,35,37,37,37,39,39,39,39,39,41,41,41,41,40,41,41,41,41,41,41,41,41,40,41,40,41,40,41,37,39,41,41,38,41,36,40,36,40,38,40,40,41,40,41,40,40,38,40,35,38,38,40,40,39,40,31,39,39,36,39,40,40,40,40,40,41,28,34,39,32,33,33,35,37,37,37,37,36,36,35,36,36,35,33,33,35,35,34,35,35,34,34,35,35,34,35,34.

b. 质量评估


 
碱基质量评分

上图是Macrogen千年基因测序得到read的质量值结果,其中几乎所有碱基的质量值在20以上,90%以上碱基的质量值在30以上。

测序深度分布

虽然外显子组测序的整体深度一般都大于100X,但由于测序过程中存在一定的序列偏向性,部分外显子区域的测序覆盖度较低。在进行信息分析时,通常只考虑测序深度高于10X的外显子区域,以便提高分析结果的可靠性。Macrogen千年基因的测序结果中,85%-95%的外显子区域测序深度大于10 X,保证较高的测序均一性。

了解千年基因外显子组测序服务的更多信息


c. 结果展示

英文参数

统计结果

中文说明

Sample Name

Example

样本名

Total reads

100,256,834

Reads数目

Total yield (bp)

10,125,940,234

数据量

Read length (bp)

101.0

读长

Target regions (bp)

62,085,286

目标区域大小

Average throughput depth of target regions

163.1

平均测序深度

Initial mappable reads (mapped to human genome)

100,097,762

可比对序列数

% Initial mappable reads (out of total reads)

99.8%

可比对序列比例

Non-redundant reads (de-duplicated by Picard tools)

82,401,028

非冗余序列数

% Non-redundant reads (out of initial mappable reads)

82.3%

非冗余序列比例

Non-redundant unique reads (uniquely mapped to human genome)

73,028,083

非冗余单一比对序列数

% Non-redundant unique reads (out of non-redundant reads)

88.6%

非冗余单一比对序列比例

On-target reads (mapped to target regions)

50,349,303

目标区域序列数

% On-target reads (out of non-redundant unique reads)

68.9%

目标区域序列比例

% Coverage of target regions (more than 1X)

95.1%

测序深度大于的覆盖度

Number of on-target genotypes (more than 1X)

59,032,909

测序深度大于的区域

% Coverage of target regions (more than 10X)

91.6%

测序深度大于10×的覆盖度

Number of on-target genotypes (more than 10X)

56,865,579

测序深度大于10×的区域

Mean read depth of target regions

65.4

目标区域平均测序深度

Number of SNPs

78,241

SNP数目

Number of coding SNPs

20,593

编码区SNP数目

Number of synonymous SNPs

10,654

同义SNP数目

Number of nonsynonymous SNPs

9,391

非同义SNP数目

Number of Indels

8,447

InDel数目

Number of coding Indels

411

编码区InDel数目

6、 信息分析

a. 确定序列,原始数据过滤及统计:
通过FastQC, FastX-toolkit等软件对测序质量进行评估,去除低质量reads(大于5个碱基质量低于Q20),剩余的数据作为clean data进行分析,千年基因平均大于99%的碱基质量高于Q20,大于85%的碱基质量高于Q30。
b. Mapping:
通过bwa软件将reads map到标准参考基因组上(UCSC hg19),去除无法map到参考基因组和多重map的reads后进行后续分析,大约有99.5%的reads能进行下一轮分析。
c. 去除完全一致reads(duplicate reads):
外显子捕获过程中含有PCR扩增步骤,会人为引入完全一致的DNA片段,由于这些DNA序列会对后期的分析造成影响,故要使用PICARD软件去除数据中的duplicate reads,不同的捕获平台中这类序列所占的比例不一样,illumina捕获平台中的duplicate reads数目约占总数据的15-20%,Agilent平台中的这一数值约为1-3%。
d. 对目标区域内的序列进行变异检出:
使用Samtools对测序结果与参考基因组进行比对,找出样品中存在的变异,包括SNV,InDel等,并对其进行注释及功能预测,包括dbSNP、1000G数据库,SIFT,Polyphen-2,GERP等软件。
e. 多样本分析:
根据研究内容的不同,将多个样本分为不同的组别,对其中的变异信息进行汇总,统计变异在群体内出现的频率,位置等相关信息,通过KEGG等信号通路注释分析其与疾病之间的关联。
f. 报告提交:
包括样品检测与建库报告(pdf格式)、测序结果报告(pdf格式)、单样本变异检出报告(excel格式)、多样本汇总分析报告(excel格式)、原始数据(fastq、BAM等格式)和发表文章所需的各类图表。

七、外显子组测序相关名词

外显子组测序:是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、 InDel 等具有较大的优势。

测序深度:测序得到的总碱基数与待测区域大小的比值。如使用Illumina TruSeq Exome Enrichment Kit,该试剂盒的捕获范围为62M,测序得到620M数据量时,测序深度为620/62=10×。

覆盖度:指测序获得的序列占整个待测区域的比例。如果外显子组测序的覆盖度是98%,则表示仍有2%的序列区域是没有通过测序获得的。

Read:就是读长,就是高通量测序时一个反应所能测出的碱基数。

SNP(single nucleotide polymorphism):单核苷酸多态性,个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性;不同物种个体基因组 DNA 序列同一位置上的单个核苷酸存在差别的现象。
 
InDel(Insertion/Deletion):插入/缺失,是指两种亲本在全基因组中的差异,相对另一个亲本而言,其中一个亲本的基因组中有一定数量的核苷酸插入或缺失。
 
CNV(copy number variation):基因组拷贝数变异,是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。
 
SV(structure variation):基因组结构变异,染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失(引起 CNV 的变化),染色体内部的某块区域发生重复复制、翻转颠换、易位、两条染色体之间发生重组(inter-chromosome trans-location)等。

了解千年基因外显子组测序服务的更多信息

八、Macrogen参与发表文章举例

1. Kim, J. I. et al. A highly annotated whole-genome sequence of a Korean individual. Nature 460, 1011-1015 (2009).
2. Park, H. et al. Discovery of common Asian copy number variants using integrated high-resolution array CGH and massively parallel DNA sequencing. Nature Genetics 42, 400-405 (2010).
3. Ju, Y. S. et al. Extensive genomic and transcriptional diversity identified through massively parallel DNA and RNA sequencing of eighteen Korean individuals. Nature Genetics 43, 745-752 (2011).
4. Ju, Y. S. et al. A transforming KIF5B and RET gene fusion in lung adenocarcinoma revealed from whole-genome and transcriptome. Genome Res 22, 436-445 (2011).
5. Ju, Y. S. et al. The transcriptional landscape and mutational profile of lung adenocarcinoma. Genome Research 22, 2109-2119 (2012).
6. Lim, B. C. et al. Genetic diagnosis of Duchenne and Becker muscular dystrophy using next-generation sequencing technology: comprehensive mutational search in a single platform. J Med Genet 48, 731-736 (2011).
7. Kim, J. J. et al. Exome sequencing and subsequent association studies identify five amino acid-altering variants influencing human height. Hum Genet 131, 471–478 (2012).
8. Lohmann, E. et al. A homozygous frameshift mutation of sepiapterin reductase gene causing parkinsonism with onset in childhood. Parkinsonism and Related Disorders 18, 191-193 (2012).
9. Lim, Y. M. et al. Exome sequencing identifies KIAA1377 and C5orf42 as susceptibility genes for monomelic amyotrophy. Neuromuscular Disorders 22, 394–400 (2012).
10. Markello, TC. et al. Recombination mapping using Boolean logic and high-density SNP genotyping for exome sequence filtering. Molecular Genetics and Metabolism 105, 382–389 (2012).

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号