HKDE-LACM:基于k-mer与DNABERT-2嵌入融合及循环差分进化-贝叶斯优化的乳酸菌分类混合模型

【字体: 时间:2025年09月26日 来源:BMC Genomics 3.7

编辑推荐:

  本研究针对乳酸菌(LAB)分类中传统方法耗时费力、现有机器学习模型特征表达不全面且泛化能力有限的问题,开发了一种融合高维k-mer频率特征与DNABERT-2上下文嵌入的混合分类模型HKDE-LACM,并引入循环差分进化与贝叶斯优化(C-DBFA)框架进行超参数自动优化。实验表明,该模型在三个LAB数据集上均实现了更高的分类准确性与鲁棒性,为基因组序列分类提供了高效可靠的新工具。

  
乳酸菌(Lactic Acid Bacteria, LAB)是一类能够代谢碳水化合物产生乳酸的革兰氏阳性细菌,在食品生产和临床应用中扮演着重要角色。它们通过发酵产生的代谢产物不仅可以防止微生物腐败、改善食品感官品质,还能作为益生菌增强免疫力、平衡肠道菌群。然而,传统的LAB分类方法依赖于生理学和基因水平特征,存在耗时、昂贵且易受操作者主观偏差影响的问题。近年来,尽管机器学习和深度学习方法已广泛应用于基因组序列分类,但在捕捉全面特征表示和增强模型泛化能力方面仍面临挑战。
为了解决这些问题,来自内蒙古农业大学的邹杰等人开展了一项研究,开发了一种名为HKDE-LACM的混合分类模型,该成果发表在《BMC Genomics》上。研究人员通过整合高维k-mer频率特征与DNABERT-2生成的上下文嵌入,显著丰富了基因组序列的表示,并采用一种称为循环差分进化与贝叶斯优化(C-DBFA)的框架自动优化模型超参数,从而提升了分类性能与泛化能力。
研究主要采用了以下关键技术方法:使用Jellyfish工具计算高维k-mer频率并保留前20%的高频特征;利用DNABERT-2模型通过滑动窗口(长度800,步长200)生成768维上下文嵌入向量;基于预测置信度对嵌入进行正向和反向分组,并通过BiLSTM聚合;设计特征融合管道,结合方差阈值、ANOVA F值和PCA进行特征选择,并应用SVM、随机森林和XGBoost分类器;采用C-DBFA优化策略(结合差分进化和贝叶斯优化)进行超参数调优,并引入失败区域避免机制以提高搜索效率。实验数据来源于公开的iProbiotics网站,包括三个数据集:Dataset 1(239个益生菌和411个非益生菌样本)、Dataset 2(57个益生菌和非益生菌乳杆菌各57个)和Dataset 3(70个乳杆菌、30个双歧杆菌和其他益生菌样本)。
整体性能
研究在三个数据集上进行了10折交叉验证。结果显示,HKDE-LACM在测试集上均优于现有方法。例如,在Dataset 1上,融合特征模型的准确率、召回率、精确度、F1-score、AUC和MCC均显著提高;Dataset 2上准确率提升超过6%,AUC增益超5%;Dataset 3上准确率从95.35%提高到99.41%。这表明融合k-mer和嵌入特征有效增强了模型的判别能力。
特征表示与融合策略分析
通过t-SNE可视化发现,单独使用8-mer特征时样本在特征空间中混合严重;加入DNABERT-2嵌入后,正负样本聚类更清晰,边界更明显。特别是10-mer与双向嵌入结合时,样本呈现近线性可分结构。生物上,k-mer捕获局部序列 motif,而嵌入编码上下文和全局信息,二者互补。融合后特征在保持计算效率的同时显著提升了分类性能。
优化策略效果
比较不同优化方法表明,C-DBFA(结合差分进化、贝叶斯优化和失败避免机制)效果最佳。差分进化提供全局探索,贝叶斯优化进行局部精细搜索,失败避免机制则防止冗余采样。如图1B和2A所示,该策略使搜索更集中在高性能区域,提高了找到最优配置的效率。
讨论与结论
HKDE-LACM模型能够仅基于基因组序列准确区分益生菌与非益生菌以及不同益生菌菌株,这得益于其融合了局部k-mer模式和全局上下文嵌入的特征表示,以及自动化的优化管道。该模型避免了传统方法对表型数据和注释信息的依赖,提供了快速、准确的LAB分类工具。
然而,研究也存在一些局限性:数据集主要包含益生菌和非益生菌样本,未能涵盖LAB的全部多样性;模型可解释性有限,难以提供预测的生物学详细解释;且当前训练数据集中于益生菌,可能影响对非益生菌或其他LAB类型的泛化能力。未来工作可通过扩大样本范围、结合微生物学知识以及迁移学习来进一步提升模型性能。
尽管本研究聚焦于乳酸菌,但所提出的k-mer和深度学习结合框架原则上也适用于其他微生物分类任务,因为核苷酸序列决定功能特性的原理具有普适性。因此,HKDE-LACM不仅为LAB分类提供了可靠方案,也为更广泛的微生物基因组学研究奠定了方法学基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号