
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Eukfinder:从宏基因组数据中挖掘真核微生物基因组序列的创新管道及其在肠道共生体研究中的应用
【字体: 大 中 小 】 时间:2025年04月11日 来源:mBio 5.1
编辑推荐:
这篇综述推荐一款名为Eukfinder的生物信息学工具,专为从全基因组鸟枪法测序(WGS)宏基因组数据中高效回收真核微生物(如Blastocystis)基因组而设计。通过双数据库分类(Centrifuge/PLAST)和分箱流程,Eukfinder克服了现有工具(如EukRep、Tiara)的局限性,无需依赖参考基因组即可实现高完整度核基因组与线粒体基因组(MRO)的组装。其在模拟和真实肠道样本中表现优异,为研究真核微生物的生理功能与进化提供了新方案。
Eukfinder是一款针对宏基因组数据中真核微生物基因组回收的创新型生物信息学流程。其通过结合双数据库分类(Centrifuge和PLAST)与定制化分箱流程,解决了传统方法(如Refmapping和机器学习工具EukRep/Tiara)在真核序列识别中的局限性。研究团队利用模拟肠道微生物组数据集(含不同比例的Blastocystis reads)和真实人类肠道样本验证其性能,结果显示Eukfinder在基因组完整性、连续性和准确性上均优于同类工具,尤其在高测序深度下可回收近完整基因组。
微生物真核生物(如Blastocystis)的基因组研究长期滞后于原核生物,主要因其基因组复杂度高(大尺寸、重复序列多)且在宏基因组中丰度低。现有工具如Refmapping依赖近缘参考基因组,而EukRep/Tiara基于机器学习模型,存在分类偏差或短序列兼容性问题。Eukfinder的创新性在于:1)支持短读长(Illumina)和长读长(Nanopore/PacBio)数据输入;2)通过两轮分类(Eukfinder_short)或单轮分类(Eukfinder_long)提高真核序列捕获率;3)允许用户自定义数据库以适应特定环境。
Mock community分析
在模拟数据集中,Eukfinder_long回收的Blastocystis ST1基因组长度和单拷贝基因(SCG)数量显著优于EukRep(差异3.4%)和Tiara(差异8%),且错误组装率最低。Eukfinder_short在>1M reads时超越Refmapping,而Refmapping在缺乏近缘参考基因组(如仅含ST2-9)时性能骤降(基因组完整度<12%)。
真实样本验证
8例人类肠道样本中,Eukfinder成功回收Blastocystis ST3/ST4核基因组(7.5–12.3 Mbp)和线粒体基因组(MRO),其中样本3D的组装甚至超越现有参考基因组。此外,Eukfinder还检出Dientamoeba、Cryptosporidium等其他真核微生物序列,展现多物种识别能力。
Tara Oceans挑战
在复杂海洋宏基因组数据集(ERR868402)中,Eukfinder通过调整参数平衡精确度(0.4)与召回率(0.52),优于EukRep/Tiara。
计算效率
Eukfinder_long运行时间(98分钟)接近EukRep(85分钟),而Refmapping最快(11分钟),但后者依赖参考基因组。
Eukfinder的核心优势在于其灵活性:1)分类与分箱流程解耦,支持第三方工具(如MetaBAT2)优化结果;2)通过“Unknown”分类捕获潜在新物种;3)适用于培养非依赖性和参考基因组非依赖性研究。未来方向包括扩展至海洋/土壤环境,以及整合机器学习提升分类精度。
流程细节包括:1)Trimmomatic和Bowtie2预处理;2)Centrifuge(min hit length=40)和PLAST(e-value=0.01,identity=70%)分类;3)metaSPAdes组装;4)基于覆盖深度、rRNA(Metaxa2)和MyCC分箱的基因组提纯。
Eukfinder为真核微生物组学研究提供了高效工具,其应用将促进对Blastocystis等共生体生理与进化的理解,并推动环境样本中未知真核生物的发现。
生物通微信公众号
知名企业招聘