
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于K-mer子序列自然向量(K-mer SNV)的真菌分类新方法:高效精准的多层次分类突破
【字体: 大 中 小 】 时间:2025年07月10日 来源:BMC Bioinformatics 2.9
编辑推荐:
本研究针对真菌分类中传统方法耗时耗力、难以处理大规模数据的难题,开发了基于K-mer局部分布特征的K-mer SNV(K-mer Subsequence Natural Vector)新型比对无关方法。研究人员通过分析120,140条真菌ITS序列,在门(99.52%)、纲(98.17%)、目(97.20%)、科(96.11%)、属(94.14%)和种(93.32%)六个分类层级实现高精度预测,显著优于18-NV、Kraken2等方法。该成果为真菌生态学研究和医学应用提供了高效计算工具,发表于《BMC Bioinformatics》。
真菌作为地球上分布最广的真核生物之一,在生态平衡、农业生产和人类健康中扮演着关键角色。然而,真菌分类长期以来面临三大困境:依赖形态学的传统方法需要专业知识,培养法不适用于难培养菌株,而基于DNA的分子方法又受限于序列比对的计算复杂度。尤其当面对包含144,000个物种的庞大真菌群体时,现有分类技术往往在准确性、效率和多层级分类能力上捉襟见肘。
北京建筑大学理学院的研究团队另辟蹊径,开发出名为K-mer子序列自然向量(K-mer SNV)的创新算法。该方法巧妙避开了传统序列比对的瓶颈,通过捕捉K-mer(K核苷酸片段)在DNA序列中的分布特征,实现了真菌从门到种六个分类层级的精准预测。相关成果已发表在生物信息学权威期刊《BMC Bioinformatics》上。
研究团队采用三项核心技术:首先将ITS序列分割为L段子序列(公式1),随后计算每段中所有K-mer(K=4时含44=256种组合)的出现频率、平均位置和归一化二阶中心矩(公式2-3),最终构建L×3×4k维特征向量。基于Bold Systems数据库的120,140条真菌ITS序列,研究人员使用随机森林分类器进行五折交叉验证,参数通过网格搜索优化(K=4,L=3时达到最佳性能)。
分类性能
在门级分类中,对Ascomycota等4个门类实现99.52%准确率(表2),即使数据量差异达26倍(72,385 vs 2,830条)仍保持稳健。类级分类面对24个不均衡类别(最大34,307条,最小仅21条),总体准确率达98.17%(表3)。值得注意的是,在包含665个物种的最复杂层级,K-mer SNV仍保持93.32%准确率,显著优于BLAST比对(BTOP)的0%和18-NV方法的84.68%(表1)。
系统发育分析
通过MEGA软件构建的UPGMA系统发育树(图8)显示,K-mer SNV特征能准确反映真菌进化关系。在Taxxi基准测试中,该方法F1-score达89(图7),验证了其在复杂分类场景下的适用性。
这项研究突破了真菌分类的三重技术壁垒:计算效率上,单机30分钟内完成12万级数据量分析;方法学上,首次实现K-mer分布特征与子序列分割的融合;应用层面上,解决了传统方法在属、种级分类准确率骤降的痛点。正如讨论部分指出,该方法为真菌多样性研究提供了标准化分析工具,其模块化设计(可调K/L参数)更适用于不同规模数据集。未来通过自动化参数优化和跨物种应用验证,或将重塑微生物组学研究的技术格局。


生物通微信公众号
知名企业招聘