长读长组装错误更多？两派学者起争论[心得点评]

【字体：大中小】 时间：2019年01月25日 来源：生物通

编辑推荐：

　　近日，英国爱丁堡大学的研究人员对三个利用长读长测序技术组装的人类基因组进行分析。他们发现，与短读长组装相比，这些长读长组装的蛋白编码区域含有相当多的错误。不过，随后有研究人员对此提出质疑。

近日，英国爱丁堡大学的研究人员对三个利用长读长测序技术组装的人类基因组进行分析。他们发现，与短读长组装相比，这些长读长组装的蛋白编码区域含有相当多的错误。他们在《Nature Biotechnology》上发表结果，并建议人们花大力气去解决这些错误。

文章的共同作者Mick Watson和Amanda Warr表示：“对于那些准备利用单分子技术来测序基因组以及希望在临床实践中使用长读长技术的研究人员来说，这些结果可能具有警示作用。”

然而，参与长读长组装的研究小组之一在同期杂志上进行了回应，对这些结果提出了质疑。他们认为，新的生物信息学工具已经改善了纳米孔组装，并且“算法和技术的进一步改进将能够从Oxford Nanopore和PacBio数据中获得参考级的一致序列”。

在这项研究中，Watson和Warr对五个已发表的人类基因组组装进行比较。其中两个是只利用PacBio序列组装的（2015年和2017年），一个是利用Oxford Nanopore和Illumina序列组装的（2018年），另外两个则是只利用Illumina短读长序列组装的（2011年和2014年）。

他们将这些组装与一组41,000条mRNA转录本进行比较，发现长读长组装在蛋白编码区域的插入缺失错误明显多于短读长组装。特别是早期的PacBio组装，近11,000个基因存在indel错误，而新的PacBio组装仅有740个。对于Illumina-纳米孔组装，近4,000个基因存在indel错误，而两个Illumina组装分别是400个和600个。

研究人员指出，最近PacBio组装的大幅改进证明，它能将出错的蛋白编码区域降低至几百个，不过需要注意这样做所需的资源和技能。此外，Oxford Nanopore组装虽然使用Illumina reads进行校正，但在蛋白编码区域仍然存在大量的indel错误，这值得那些使用纳米孔组装的研究人员留意。

Watson和Warr解释说，他们的分析“不应被认为是对PacBio或Oxford Nanopore的批评，也不是比较各种测序技术。相反，它只是尝试利用已发表的人类基因组组装来证明indel错误仍然普遍存在，这可能影响蛋白编码转录本和基因”。

然而，其他人似乎有不同的看法。伯明翰大学Nick Loman和诺丁汉大学Matt Loose领导的研究团队在同期杂志上发表回复文章，认为爱丁堡研究人员错误地关注了他们之前论文中的组装，它所使用的碱基识别工具已过时。

他们最近利用更新的碱基识别工具重新组装了原始的纳米孔数据。他们表示，新工具改善了组装的连续性，且纳米孔数据的一致准确性达到99.77%。同时，他们还用两种不同的工具进行几轮polishing，更新了纳米孔和Illumina数据的组装，一致准确性达99.99%。

研究人员认为，组装不仅仅应根据错误率来判断，还要考虑其连续性、是否存在错误组装以及其他指标。他们表示，从各种组装质量指标来看，长读长测序技术可以产生明显改进的组装。

Watson和Warr也同意这个观点，“长读长已经改变了基因组组装，我们相信它们将成为所有新基因组组装项目的起点”。例如，脊椎动物基因组计划打算使用四种互补技术，包括PacBio测序，产生长reads或其他长距离映射信息。

不过，他们坚持认为，为了最大限度提高长读长组装的准确性，大家应进行多轮的polishing，并检查其余的插入缺失和错误，包括手动检查和错误纠正。（生物通薄荷）

原文检索

Errors in long-read assemblies can critically affect protein prediction

Reply to ‘Errors in long-read assemblies can critically affect protein prediction’

订阅生物通快讯

订阅快讯：

免费订阅退订

限时促销

会展信息

联系信箱：

粤ICP备09063491号

订阅生物通快讯

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯