FC-Virus:精准组装病毒准种全长一致性序列,解锁病毒基因组奥秘

【字体: 时间:2025年02月10日 来源:BMC Bioinformatics 2.9

编辑推荐:

  为解决病毒准种全长一致性序列组装难题,青岛大学等研究人员开展了名为 “Accurate assembly of full?length consensus for viral quasispecies” 的研究。他们开发 FC-Virus 策略,实验表明其能构建单一准确的全长一致性序列,有助于深入研究病毒遗传多样性等,为病毒研究提供新方向。

  在病毒的微观世界里,病毒就像一群 “善变的精灵”。它们在宿主细胞内快速复制遗传物质,导致突变率极高。不同的突变株组成了病毒准种,这些突变株的遗传差异会影响病毒的毒力、传播能力和耐药性。重建病毒准种的全长一致性序列,对于了解病毒的遗传变异、致病机制以及开发疫苗等至关重要。然而,目前的基因组组装工具在面对病毒基因组时却困难重重。由于测序偏差、错误,菌株丰度差异,以及重复片段等问题,大多数组装器只能生成碎片化的重叠群(contigs),无法获得完整的全长一致性序列,这就像拼图时无法拼出完整图案一样,严重阻碍了对病毒的深入研究。
为了攻克这一难题,青岛大学计算机科学与技术学院的贾田、高子玉、李明浩,北京交通大学软件工程学院的包额尔古德,以及青岛大学的赵金等人开展了相关研究。他们开发了一种名为 FC-Virus 的从头基因组组装策略,专门用于高度多样化的病毒群体。研究结果表明,FC-Virus 能够构建出单一、准确的全长一致性序列,而其他组装器只能产生碎片化的 contigs。这一成果发表在《BMC Bioinformatics》上,为病毒基因组研究开辟了新的道路。

研究人员为开展此项研究,主要用到了以下关键技术方法:首先是 kmers提取与分析技术,通过计算 kmers的出现频率并绘制频率分布图,识别出同源 kmers;其次是基于同源 kmers的序列组装技术,将含有至少两个同源 kmers的读段(reads)视为同源 reads,进而拼接成一致性序列;最后是一致性序列优化技术,利用贪心策略对初步生成的一致性序列进行扩展和优化。

下面来看具体的研究结果:

  • 评估片段化程度:研究人员对比了不同组装器在多个模拟数据集上组装出的 contigs 长度分布。结果发现,FC-Virus 始终能产生单一长 contig,长度与病毒基因组接近;而其他组装器则生成大量短 contig。这是因为现有组装算法基于 reads 或 kmers重叠构建图,病毒株基因组差异使图结构复杂,难以提取有效路径,而 FC-Virus 将菌株变异整合到组装和优化过程中,在多菌株共享区域构建出与大多数菌株匹配的一致性序列。
  • 通用标准评估:利用 QUAST 工具评估各算法组装的 contigs 与参考病毒株的匹配程度。FC-Virus 的每 100kbp 错误数比以单个菌株基因组作为一致性的参考值显著更低,说明其生成的一致性序列作为参考基因组更准确。传统组装算法中,除 SPAdes 外,其他算法在病毒基因组组装上表现不佳;菌株水平组装算法虽在某些指标上表现较好,但存在重复率高和错误率高的问题。
  • reads 重映射率评估:将 reads 比对到各算法组装的 contigs 上,计算两端匹配的 reads 百分比。FC-Virus、VG-Flow 和 Vstrains 在 reads 重映射率上表现出色,FC-Virus 仅用一个 contig 就达到甚至超越其他算法,表明其一致性序列能有效覆盖几乎所有 reads,可作为良好的参考基因组。
  • 测序深度影响研究:研究人员在 11 个测序深度不同的 COVID-19 数据集上评估 FC-Virus 和其他算法。结果显示,除部分算法外,测序深度对多数算法性能影响较小。FC-Virus 在各项评估标准上表现稳定,优于部分算法,且研究发现低测序错误率下,测序深度对组装器性能影响不大。
  • CPU 时间和内存需求评估:从理论上分析,FC-Virus 的时间和空间复杂度均为 O (m)(m 为 reads 数量)。实际评估中,在 POLIO 和 HIV-LABMIX 数据集上,FC-Virus 所需 CPU 时间最短;在其他数据集上,其 CPU 时间仅次于 SOAPdenovo2。在内存使用方面,FC-Virus 表现也很出色,要么最优,要么仅次于 IDBA。

研究结论和讨论部分指出,FC-Virus 是一种高效的基因组组装算法,首次引入同源 kmers概念并提出识别策略。通过以同源 kmers为锚点合并 reads,生成的一致性序列可作为参考基因组,有助于更详细地分析数据集中菌株的组成和分布。与其他组装器相比,FC-Virus 在多数评估指标上表现更优,能够生成单一一致性序列,达到其他组装器多个 contigs 的组装效果。未来,研究人员计划利用 FC-Virus 生成的一致性序列作为参考基因组,进一步组装单个菌株基因组,这将为病毒研究带来更多可能,有望推动病毒学领域在病毒进化、传播机制以及精准治疗等方面取得新的突破。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号