BGISEQ stLFR：单倍体分型、长读长、SV检测全拿下！

生物通 | 新技术专栏

【字体：大中小】 时间：2019年08月02日 来源：华大科技

编辑推荐：

　　华大科技基于“将来源于同DNA长分子的短读测序片段标记上相同分子标签（co-barcode）”的概念，研发了无分隔长片段读取技术（stLFR技术），实现了基于高精度短读测序获取长片段DNA信息。

单倍体分型、长读长、SV检测全拿下！了解BGISEQ stLFR技术>>

在高通量测序技术中，有这样一种神器，它集短读长和长读长测序的优势于一身，拥有更强大的性能和更广泛的应用场景。在了解它之前，科技君先带大家比较下短读长测序和长读长测序的优劣。

短读长测序之“短”

01 单体型模式丧失

人类基因组本质上是二倍体，一组染色体遗传自母亲，另一组遗传自父亲。大约每千个碱基对中，就存在两组染色体之间的单核苷酸信息的差异，称为杂合SNP。在常规WGS过程中，我们先将DNA剪切至~350 bp，再进行测序。由于插入片段太小，大多数PE reads不能连接两个杂合SNP，因此常规WGS将导致杂合SNP组合模式的丧失。

这种SNP组合模式丧失可能带来问题，例如，H1975细胞在EGFR激酶结构域中携带两个突变，即T790M和L858R。吉非替尼和厄洛替尼的抗癌药物对L858R突变有效，但同一等位基因上如果存在T790M二级突变，则会产生抑制药物的作用[1]。

图1 测序平台显示两突变均是是杂合SNV，无法分辨这些SNV是否在同一等位基因中，无法知道抗癌用药。

02 无法有效检测大的结构变异

短读长测序由于短的文库片段和短的读长，使得利用重测序比对检测SVs具有无法避免的检测偏向性，无法通过算法升级解决[2]。

为了更直观地看到短读长测序对SV的检测效果，我们采用了delly和manta两个软件对人标准品NA12878的SV进行评估，结果显示各短读测序平台在SV变异检测能力相当，尽管对于缺失和倒位时的真阳性率（50%-60%）相比重复和插入已较高，但仍然远低于对于小变异SNP和InDel的检测的真阳性率（>95%），且几乎无法检测出大的插入。

图2 短读长测序平台SV检测真阳性率评估

03 无法覆盖高同源区域

高同源性区域序列的检测也是短读长技术面临的一大挑战，由于短读长reads与高度同源区域（包括假基因）的不准确映射，可能导致假阳性和假阴性诊断错误。

已有研究报道，这些高同源基因可导致是流行和严重遗传疾病，包括PMS2（结肠癌）、STRC（听力丧失）和TTN（扩张型心肌病）等[3]。可见，对高同源区域的检测势在必行。

表1 高同源基因具有高医学相关性

长读长测序之“殇”

01 无法有效检测小的SNP&InDel

对于单核苷酸错误率为5-15%的单分子长读长测序，准确鉴定DNA序列的突变尤为困难[4]。对于小的InDel，短读长测序平台的检测能力较长读长测序平台高一倍。

图3 短读长和长读长测序平台SNP和InDel变异检测能力

02 价格仍然高昂

长读长测序技术，例如Oxford Nanopore或PacBio技术，可以获得高精准度的SV检测结果、单倍体分型、高同源区域的覆盖，但价格昂贵，让很多科研工作者望而却步。

如何才能兼顾短读长和长读长测序技术的优势？

华大科技基于“将来源于同DNA长分子的短读测序片段标记上相同分子标签（co-barcode）”的概念[5]，研发了无分隔长片段读取技术（stLFR技术）[6]，实现了基于高精度短读测序获取长片段DNA信息（图4）。与世界领先的DNBseq™测序技术相结合，stLFR技术能够实现高质量小变异检测，对人基因组区域进行单倍体分型，大的结构变异解析，高同源区域覆盖等高性价比的长读长应用。

图4 stLFR 文库构建流程示意图。该技术从提取好的长片段DNA起始，将转座子序列随机插入至长片段DNA中，
利用DNA双链互补原理将该产物与带有多拷贝分子标签的磁珠载体结合，在引入第二个接头后进行PCR扩增，最终完成文库构建。

BGISEQ stLFR人重测序之“长”

1. 杂合位点phasing比例高达99.7%

单倍体分型（phasing）区块N50值可达10 Mb。

2. 高SNP和InDel变异检测精准度和敏感度

stLFR共同条形码读数类似于直接单分子测序，但没有单分子高碱基错误率，可高质量检测小变异。

3. 检测SV的强大工具（包含CNV）

有效检出倒位、异位、删除、插入等大于20kb的结构变异。

4. 可以分析常规WGS难以处理的区域

例如高同源区域、高重复区域等。

5. 起始量低至1 ng

仅1 ng即可获得100 ng DNA起始的常规人重文库相当的基因组覆盖均匀性表现。

BGISEQ stLFR人重数据展示

1. 长片段读取

利用DNA共标记方法，BGISEQ stLFR可以检测分析DNA分子长度平均长度可达50-70 Kb，最大值可超过300 kb。

图5 stLFR片段长度分布

2. 约有85%DNA长分子被唯一barcode标记

从1 ng DNA起始构建stLFR文库时，约有85% DNA长分子被唯一barcode标记，更有利于phasing和SV变异检测。

图6 stLFR 每个标签内的长片段数量分布

3. 覆盖均匀性与常规文库没有差别

从1 ng DNA起始，stLFR文库即可获得与使用100 ng DNA起始的常规全基因组测序文库相当的基因组覆盖均匀性表现。

图7 stLFR 文库测序深度均匀性。蓝色实线为stLFR文库，绿色虚线为100 ng起始的常规全基因组测序文库，
灰色虚线为理论预期深度分布（泊松分布），数据已均一化至30X覆盖度。

4. 杂合位点phasing比例高达99.7%

利用共标签短读序列，stLFR可以轻松获得二倍体基因组上杂合位点定相信息，定相区块N50值可达10 Mb以上，可有效解析基因调控和编码区变异组合。

图8 stLFR 定相区块在染色体上的分布情况

5. InDel检测更胜一筹

stLFR由于建库过程中没有使用任何扩增，其InDel检测结果显著优于其他两种单倍体型测序手段[6]。

图9 stLFR 文库30X覆盖度小变异检测能力评估

6. NA12878 SV检出率100%

与常规WGS变异检测的相比，stLFR除了能检测SNP和InDel，还可以利用Phasing和co-barcoded信息对基因组上的大尺度变异（CNV、SV）进行检测，这些变异信息能更好的解释恶性肿瘤发生过程中关键的致癌驱动事件。对NA12878中已知的SV进行检测，检出率能达到100%。

图10 NA12878 SV检出率100%

7. 仅5Gb也能检测到易位和倒位

stLFR成为检测多种变化的强大工具。对每个文库的数据量进行下采样，即使只有5 Gb的读数据（~1.7×总覆盖率）也能检测到易位和倒位的强烈信号。

图11 stLFR检测SV能力

8. 覆盖常规WGS难以处理的区域

除此之外，通过强大的DNA共同条形码策略，stLFR可以分析对常规WGS来说很难的区域。可以清晰的检测整个DNA水平仅有5个碱基不同的高度同源基因SMN1与SMN2。

图12 stLFR可以通过共同条形码信息正确映射高同源区域

BGISEQ stLFR，神器在手，大小变异无忧！

单倍体分型、长读长、SV检测全拿下！了解BGISEQ stLFR技术>>

参考文献：

【1】Suzuki A, Suzuki M, Mizushimasugano J, et al. Sequencing and phasing cancer mutations in lung cancers using a long-read portable sequencer:[J]. Dna Research An International Journal for Rapid Publication of Reports on Genes & Genomes, 2017, 24(6):585-596.

【2】Guan P, Sung W K. Structural Variation Detection Using Next-Generation Sequencing Data: A Comparative Technical Review.[J]. Methods, 2016, 102:36-49.

【3】Mandelker D , Schmidt R J , Ankala A , et al. Navigating highly homologous genes in a molecular diagnostic setting: a resource for clinical next-generation sequencing[J]. Genetics in Medicine Official Journal of the American College of Medical Genetics, 2016, 18(12):1282.

【4】Luo R, Sedlazeck F J, Lam T W, et al. A multi-task convolutional deep neural network for variant calling in single molecule sequencing[J]. Nature communications, 2019, 10(1): 998.

【5】Peters B A, Liu J, Drmanac R. Co-barcoded sequence reads from long DNA fragments: a cost-effective solution for "perfect genome" sequencing.[J]. Front Genet, 2014, 5:466.

【6】Wang O, Chin R, Cheng X, et al. Efficient and unique cobarcoding of second-generation sequencing reads from long DNA molecules enabling cost-effective and accurate sequencing, haplotyping, and de novo assembly[J]. Genome research, 2019, 29(5): 798-808.

订阅生物通快讯

订阅快讯：

免费订阅退订

限时促销

会展信息

联系信箱：

粤ICP备09063491号

订阅生物通快讯

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯