HFTC:基于低维嵌入特征和层次随机森林的真菌ITS序列分类新方法

【字体: 时间:2025年10月06日 来源:Frontiers in Genetics 2.8

编辑推荐:

  本研究提出HFTC(层次真菌分类模型),通过双向k-mer策略和Word2Vec嵌入将特征维度从4k降至200维,结合多层次随机森林(RF)架构解决真菌ITS序列分类中高维特征和分类不一致性问题。实验显示HFTC在ACC(95.25%)、MCC(95.31%)和层次准确性(HA,95.10%)上均优于主流工具(Mothur、RDP、Sintax等),且推理速度最快(0.37ms/序列),为微生物组研究提供了高效可靠的分类方案。

  
1 引言
真菌在地球生态平衡和人类生活中扮演着不可或缺的角色,涉及生物多样性保护、有机物分解、医药食品生产和农业生物防治等多个领域。尽管其生态和生物技术意义重大,但真菌的探索仍严重不足——估计约1200万种真菌中仅有15万种被正式描述。传统基于形态学的鉴定方法在缺乏形态特征时难以应用,而全基因组测序又成本高昂、计算密集。因此,DNA宏条形码技术成为微生物群落分析的主流方法,其中ITS(Internal Transcribed Spacer)区域被确立为真菌的通用DNA条形码。
ITS序列分类面临三大挑战:高维特征表示带来的计算负担、分类噪声与数据不平衡问题,以及扁平分类模型导致的层次预测不一致。现有方法(如BLAST、k-mer频率向量)虽具有一定准确性,但特征维度高达4k(k通常为7–11),且无法保证跨分类层级的一致性预测。例如,一个在门水平分类错误但在属水平分类正确的序列,在单层级评估中仍会被计为正确,从而夸大模型性能。
2 材料与方法
2.1 数据提取与预处理
研究基于UNITE数据库(v9.0)构建高质量ITS数据集。原始数据包含6,499,364条序列,经过严格过滤:剔除132万余条未鉴定或模糊标签序列、6.6万余条含非标准碱基的序列,以及29.5万余条来自物种假设(SH)代表序列少于10条的稀有分类群。最终训练集包含251,630条序列,代表25,163个真菌物种,每个SH随机抽样10条序列以平衡数据分布。测试集完全独立于训练集,按每物种10–30条序列构建五个子集(Test10–Test30)。
2.2 序列特征表示
HFTC采用双向k-mer(Bi-kmer)策略和Word2Vec嵌入进行特征工程。将ITS序列视为“句子”,k-mer作为“单词”,通过滑动窗口(步长L)提取正向和反向k-mer。使用Skip-gram模型(而非CBOW)训练Word2Vec,以更好捕捉稀有k-mer的上下文信息。每个k-mer被映射为N维向量(N=200),整条序列通过平均池化并拼接双向向量得到2N维(400维)的紧凑表示,将特征维度从4k(如k=7时16,384维)降至200维。
2.3 HFTC模型构建
HFTC采用层次化多级随机森林(RF)架构,从门到物种逐级分类。主要真菌门(如Basidiomycota和Ascomycota)进一步细分至纲、目、科等级别,物种数少于1000的分类群被归入“其他”类别直接进行物种分类。共构建21个子分类器,每个针对特定分类层级独立训练。RF因其对类别不平衡的鲁棒性、低计算成本和无需复杂调参而被选为基础分类器。
2.4 模型评估指标
除准确率(ACC)、召回率、精确度、F1-score和马修斯相关系数(MCC)外,特别引入层次准确性(HA)指标:仅当样本在所有分类层级均预测正确时才计为真阳性,以全面评估分类一致性。
3 结果与讨论
3.1 子分类器划分与性能
HFTC的21个子分类器在训练和测试集上均表现稳定,17个达到95%以上准确率,最高如Fungi2p达99.98%。唯一性能较低的Cortinariaceae_f2s(准确率80.71%)源于训练数据中Cortinarius属占主导且近缘属(如Cystinarius、Hygronarius)序列相似度高,导致分类混淆。网格搜索调参未能显著提升其性能,表明问题源于数据本身而非参数设置。
3.2 特征嵌入策略优化
通过k值优化发现:高层级分类(门–科)最佳k值为10,而物种层级最佳k值为7。较长k-mer(k=10)能捕捉进化分歧带来的保守 motif,增强类间区分性;较短k-mer(k=7)对点突变和短indel更敏感,适于物种级细微变异。混合k-mer策略并未带来显著提升,故最终采用单一最优k值(高层级k=10,物种级k=7)。Word2Vec嵌入在保持准确性的同时,将特征维度降低至传统k-mer频率向量的0.3%–4.8%,大幅提升计算效率。
3.3 模型整体性能评估
在Test10数据集上,HFTC在物种级ACC达95.25%,MCC达95.31%,HA达95.10%。其余测试集(Test10–Test30)物种级准确率均高于93%。MCC在各层级均保持高位(门级99.9%,物种级95.3%),表明模型对不平衡数据具有强适应性。HFTC的ACC与HA差异仅1.60%,远低于CNN-Duong的35.00%,体现了层次架构在保证分类一致性方面的优势。
3.4 与现有分类器比较
HFTC在ACC、HA、F1、MCC等六项指标上均优于Mothur、RDP、Sintax、QIIME2和CNN-Duong。尽管CNN-Duong物种级ACC略高(95.43%),但其HA显著降低(91.90%),且推理速度较慢(2.02 ms/序列)。HFTC凭借200维嵌入特征实现最快推理速度(0.37 ms/序列),比第二快的Sintax提速35%。QIIME2(k=7)因采用更优k值表现优于RDP和Sintax(k=8),验证了k值选择的重要性。
4 结论
HFTC通过双向k-mer、Word2Vec降维和层次RF架构,实现了真菌ITS序列的高效、准确且一致分类。其低维特征表示和快速推理能力使其适用于大规模微生物组研究。当前局限性包括对参考数据库质量的依赖、位置信息丢失问题等。未来可结合预训练语言模型(如DNABERT)增强上下文感知,或扩展至其他条形码(如16S rRNA、RPB2)。所有代码和数据已开源提供。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号