综述：应用微生物学中的机器学习：从数据质量到模型验证与实施

《Microbiological Research》：Machine Learning in Applied Microbiology, from Data Quality to Model Validation and Implementation

【字体：大中小】 时间：2026年06月12日 来源：Microbiological Research 6.9

编辑推荐：

　　机器学习（ML）现已广泛应用于微生物学领域，但其可靠性在不同领域中差异显著。本综述分析了254篇科学文献的数据，通过三个相互关联的维度评估机器学习在诊断与病原体鉴定、病毒学、微生物组研究、工业及环境微生物生物技术中的应用，这三个维度包括数据准备度、模型适用性和

机器学习（ML）现已广泛应用于微生物学领域，但其可靠性在不同领域中差异显著。本综述分析了254篇科学文献的数据，通过三个相互关联的维度评估机器学习在诊断与病原体鉴定、病毒学、微生物组研究、工业及环境微生物生物技术中的应用，这三个维度包括数据准备度、模型适用性和部署准备度。该框架有助于区分由方法学局限性导致性能虚高的研究与真正稳健的进展。综述表明，当有经过整理的数据集、可靠的标签和全面的参考数据库支持时，病原体鉴定和抗菌药物耐药性（AMR）预测始终能取得优异的性能。然而，其内部验证、谱系混杂以及跨菌株、机构和地区的转移能力不均等问题，限制了其实际价值。在病毒学研究中，不完整的参考数据库、不断变化的分类学和疫情暴发期间的时序漂移进一步挑战了预测的稳定性。在微生物组研究中，尽管机器学习分类器能够检测疾病和环境信号，但由于组成型数据结构、技术偏差和不完整的元数据，其在不同队列间的泛化能力仍然较弱。当过程数据丰富且受控时，工业生物加工和环境应用显示出前景，但超越实验室或特定场地设置的部署仍然有限。在结构化的微生物学数据集中，经典监督模型通常仍可与深度学习竞争，同时更易于解释和验证。正文和汇总表中综合了支持这些比较的详细定量基准。总体而言，未来的进展将较少依赖于算法创新，而更多取决于可互操作且注释良好的数据集、代表性采样、标准化基准测试、可复现的工作流程以及前瞻性多中心验证。

1.
引言

在应用微生物学中，机器学习被用于从基因组、宏基因组、成像、光谱、表型和过程水平数据集中提取预测性和解释性模式。里程碑式的应用表明，机器学习能够支持从宏基因组数据中快速进行病原体和抗菌药物敏感性分析，改进基于基因组数据集的抗菌药物耐药性预测，并在结合自动化时加速微生物过程优化。更广泛的综述将这些进展置于临床微生物学、微生物组和微生物生态学研究以及一般微生物学数据解释的框架内。然而，报告的性能始终受到数据集结构、整理程度、验证设计和部署背景的影响。在抗菌药物耐药性预测中，群体结构可能会虚高表观性能；在微生物组模型中，处理偏差和队列效应会降低跨研究的转移性；在临床微生物学工作流程中，验证和实施障碍依然显著。因此，主要的差距不在于机器学习能否应用于微生物学，而在于如何确定其预测何时具有生物学意义、在不同环境中可复现，并且足够成熟以供实际使用。微生物学中的大多数机器学习应用可分为监督学习、无监督学习和深度学习。尽管半监督学习、自监督学习和强化学习等其他范式在标签有限、大型未标记序列或图像数据集以及闭环实验优化等场景中也具有相关性，但本文讨论的三类方法涵盖了当前微生物学数据集的主要应用方式，应根据数据结构、生物学问题和预期用途进行选择。尽管用户友好型工具日益普及且具有明显优势，但将机器学习有效纳入微生物学研究仍面临挑战，部分原因在于这些方法的统计和计算需求尚未得到标准化指南、可及性工作流程或公认评估实践的匹配。本综述通过数据准备度、模型适用性和部署准备度三个操作维度来评估应用微生物学中的机器学习。数据准备度指现有数据集是否足够大、具有代表性、注释良好且标准化，以支持可靠的模型开发。模型适用性指所选算法是否与输入数据的结构、生物学问题以及所需的可解释性水平相匹配。部署准备度指模型是否经过外部验证、针对现实替代方案进行了基准测试、集成到实际工作流程中，并证明在开发环境之外仍能保持性能。这些维度贯穿全文，用于比较诊断、抗菌药物耐药性预测、病毒学、微生物组分析以及工业和环境微生物学中的应用，重点关注证据强度、验证稳健性和实际使用的准备情况。基于此视角，本文首先考察了应用微生物学中主要的机器学习策略，强调模型设计与拟解决的微生物学问题类型之间的关系。随后探讨了不同的数据模态（包括基因组、宏基因组、成像、表型和数据集）如何塑造模型设计、性能和可解释性。在聚焦应用的章节中，评估了病原体诊断、抗菌药物耐药性预测、病毒学、微生物组分析以及工业和环境微生物学中的代表性用例，既强调了成功实施案例，也指出了反复出现的局限性。此外，还探讨了机器学习如何与多组学、实验室自动化、机器人技术和高通量筛选等互补技术相结合，并分析这些组合是提高了生物学洞察力还是仅仅增加了分析复杂性。最后，评估了继续限制进展的主要障碍，包括数据集偏差、可复现性差、基准测试不足、可解释性有限以及计算工作流程碎片化。通过围绕这些更广泛的分析主题组织内容，本综述旨在阐明机器学习已在哪些领域提供可靠的微生物学价值、哪些主张仍为时过早，以及未来进展应优先考虑的方向。
2.
文献选择与范围

本综述设计为关于应用微生物学中机器学习的结构化叙述性文献综合。文献筛选和选择工作流程遵循既定规范。通过针对性检索PubMed、Web of Science和Scopus等主要文献数据库来确定相关出版物。在所有数据库中应用的核心布尔检索式为：（“machine learning” OR “artificial intelligence” OR “deep learning”）AND（“microbiology” OR “antimicrobial resistance” OR “microbiome” OR “pathogen detection” OR “virology” OR “biotechnology” OR “bioremediation”）。根据数据库特点应用了特定的字段标签，包括PubMed的标题/摘要字段、Web of Science的主题字段以及Scopus的标题、摘要和关键词字段。优先考虑2020年至2025年间发表的同行评审研究和综述，因为2020年后微生物学中的机器学习应用随着高通量测序、数字微生物学、自动化成像、多组学工作流程以及近期基准测试标准的广泛应用而迅速扩展。如果研究明确使用或评估了微生物学数据集中的机器学习方法、比较或基准测试了算法、评估了验证或可推广性，或解决了可解释性、可复现性或相关微生物学环境中的实际应用，则将其纳入。早期的基础性研究若在引入广泛使用的概念、数据集、工具或评估实践方面具有重要意义，则予以保留。仅当2026年发表的部分参考文献直接涉及与综述框架相关的最新进展时才予收录。文章入选的标准是能够提供足够的细节以评估数据类型、模型选择、验证策略和实际应用之间的关系。参考文献的选择反映了应用微生物学的广度，同时优先考虑具有强方法论相关性、近期影响力以及对批判性比较具有明确价值的研究。明确了这一范围后，综述首先考虑了如何将机器学习模型的选择与微生物学数据结构、验证设计和可解释性需求相匹配。
3.
微生物学中的机器学习方法

机器学习在现代微生物学中日益重要，因为它能够支持分析由测序、光谱、成像和组学工作流程产生的高维数据集。然而，比较基准研究表明，机器学习性能具有很强的任务依赖性，并不总是优于简单的统计或基线方法，例如基于基质辅助激光解吸电离飞行时间质谱（MALDI-TOF）的物种鉴定。在转录组表型预测中，标准机器学习方法在多项预测任务中优于深度表征学习。在微生物组分类中，数据转换和模型选择影响了特征解释和分类行为。环境宏条形码基准同样表明，预处理、特征选择和模型设计会影响跨数据集的性能。因此，微生物学中任何机器学习策略的有效性不仅取决于模型类别，还取决于输入数据结构、标签质量、数据集规模、验证设计和可解释性需求。相关图示将这些算法类别与其主要微生物学用例联系起来，从病原体鉴定和抗菌药物耐药性预测到微生物组分层和多组学解释，并说明了为何不应将它们视为可互换的。模型选择取决于任务是需要基于标记数据进行预测、探索性结构检测，还是需要从复杂输入中自动提取特征。

3.1 机器学习算法类型

监督机器学习算法从标记的训练数据中学习，以预测新样本中的预定义结果。在微生物学中，当目标变量定义明确时，例如病原体身份、抗菌药物耐药性表型或临床结果，它们特别有用。常见的监督模型包括决策树、支持向量机（SVM）、逻辑回归、朴素贝叶斯以及随机森林（RF）等集成分类器。这些模型已广泛应用于病原体鉴定、疫情检测和基于微生物组的疾病分类等任务。例如，应用于常规监测数据的监督模型改善了对沙门氏菌和空肠弯曲杆菌疫情的早期检测，而基于患者和基因组特征训练的随机森林模型已被用于预测感染结果。基于支持向量机的分类器在将16S rRNA基因序列分配到分类群方面也显示出实用性。基准测试研究表明，监督算法之间的性能差异具有很强的数据集依赖性。例如，一项基于MALDI-TOF的细菌鉴定基准报告显示准确率为96.15%，说明当参考覆盖范围广泛时，监督学习表现强劲。在16S rRNA基因分类中，五种基于k-mer的方法的比较发现，在一个训练集中的最低分类误差约为5%，在基于SILVA的数据集中略高，且没有一种方法在所有条件下都表现最佳。在转录组表型预测中，对24个二分类或多分类任务以及26个生存任务的数千个模型的分析表明，正则化回归和标准机器学习方法可以优于深度表征学习。在微生物组分类中，对来自24个鸟枪法宏基因组数据集的8500多个样本进行的评估显示，数据转换对分类准确率影响有限，但强烈改变了特征选择。环境宏条形码基准测试在13个数据集上的进一步表明，随机森林模型通常表现良好，而特征选择可能会根据数据集结构降低性能。这些比较表明，监督机器学习的性能不能仅从算法类别推断，必须根据数据集类型、验证设计、预处理和基准范围进行判断。监督学习在微生物学中的主要优势在于，当存在足够大且注释良好的数据集时，它能够将基因组、表型或临床测量转化为可操作的预测。然而，监督学习对标签质量、数据集平衡以及训练数据反映真实世界样本多样性的程度非常敏感。在狭窄或高度整理的数据集上训练的模型可能在内部表现良好，但在不同实验室、队列或测序平台间泛化能力差。这种泛化差距已在跨领域微生物学基准中得到量化。在肠道微生物组疾病分类中，20种疾病的跨队列验证显示，平均队列内受试者工作特征曲线下面积（AUC）约为0.77，除肠道疾病外，外部验证性能大幅下降。这意味着队列内平均AUC约为0.77，对于所测试的大多数疾病而言，其判别能力已经相当有限，而在跨队列验证中观察到的额外下降进一步加剧了这一问题。因此，这些数字与单一疾病微生物组分类器一样值得批判性质疑，即队列内表现强劲并不意味着具有诊断效用，而跨队列泛化失败是加剧而非缓解了这种局限性。在抗菌药物耐药性预测中，大肠杆菌抗菌药物耐药性的跨大陆验证显示了抗生素特异性的转移性，某些药物接近随机水平准确率。这些例子表明，泛化能力应通过外部验证指标、受试者工作特征曲线下面积（AUROC）离散度、跨队列性能以及与内部测试相比的性能下降来报告，而不能仅从数据集内准确率推断。

与监督学习相反，无监督机器学习算法无需标记示例即可识别数据结构。在微生物学中，当样本类别未知、注释不完整或生物学上存在不确定性时，这些策略对于探索性分析大型复杂数据集特别有价值。聚类和降维技术是其中的代表。深度学习基于多层神经网络架构，因能在有限的人工特征工程下对复杂输入建模而受到越来越多的关注。卷积神经网络（CNN）、循环神经网络（RNN）和Transformer模型等架构已应用于基于图像、基因组和宏基因组的数据集，传统方法可能难以捕捉非线性关系或长程序列依赖性。在微生物学中，基于CNN的系统已被用于显微镜微生物检测和菌落分类等任务，而基于序列的深度学习模型也被开发用于直接从DNA或蛋白质序列预测基因功能、耐药决定因子和其他表型。深度学习还被应用于检测微生物基因组中的生物合成基因簇。即便如此，深度学习在微生物学中的优势也是情境依赖的。这些模型通常最适用于富含图像或序列的数据集，但它们通常需要大量的训练数据集、大量的计算资源以及仔细的调优以避免过拟合。此外，其内部决策过程通常比简单模型透明度更低，这可能限制生物学解释，并使临床或监管环境中的验证复杂化。基准测试研究支持这种谨慎态度。在基于16S rRNA的微生物组表型预测中，MicroPheno比较了深度学习和基于k-mer特征的经典方法，报告了环境和生物体环境分类的得分（宏F1）分别为0.88和0.87，这表明当输入表示和数据集规模合适时，深度学习是有用的。然而，更广泛的组学基准表明，这种优势并不一致。在批量多组学预测中，Flexynesis比较了神经网络架构与随机森林、支持向量机、极限梯度提升（XGBoost）和随机生存森林在14项任务中的表现，顶级性能分布在深度学习和经典模型之间，表明没有一类模型具有普遍优越性。转录组基准也得出了类似的结论，图神经网络很少能将预测提升到足以证明其计算成本是合理的程度。在单细胞扰动预测中，五个基础模型和两个额外的深度学习模型并未持续优于简单的线性基线。这些发现支持仅在数据结构、样本大小、验证性能和可解释性需求能够证明模型复杂性合理的情况下使用深度学习。监督学习是自然的选择，当结果定义明确、标签可靠且具有代表性，且目标是可衡量性能的预测或分类时。在无可靠标签存在或目标是探索性分析时，无监督学习是合适的。最常见的用途是识别群落谱中的自然分组或产生关于生态结构的假设。然而，无监督学习的输出应被视为调查的起点而非确认的生物学类别，因为聚类边界对预处理和参数选择的敏感性往往未被透明地报告。深度学习最适合真正高维和非结构化输入，如序列或图像数据。然而，模型复杂性应与更简单的基线进行比较，因为标准机器学习方法在转录组预测任务中可以匹配或超过深度学习。类似的基准担忧也见于基于图神经网络的转录组预测和基于深度学习的基因扰动分析。序列丰富的数据集为微生物学中的深度学习提供了一个相关场景，宏基因组耐药基因预测提供了更具体的微生物学例子，显微镜图像分类提供了另一个合适的用例。然而，在大多数微生物学环境中，数据集规模达不到这一门槛，更简单的监督方法经常能匹配或超过深度学习，同时保持更好的可解释性和更易验证的特点。这是一个结构性问题而非偶然现象，因为微生物学数据集通常规模较小、采样范围窄，并且生成条件无法反映部署环境。因此，开发数据集中的标题准确率数字是实用性的糟糕指导。算法选择应考虑输入数据质量和代表性是否证明所选模型的复杂性是合理的，模型输出是否对生物学或临床问题具有足够的可解释性，以及预测是否能够针对现实的独立基准进行外部验证。一个有用的启发式方法是，从能够合理解决问题的简单模型开始，只有当有令人信服的证据表明它能提高泛化能力而不仅仅是训练性能时，才增加复杂性。

3.2 机器学习中使用的数据源

上述方法学区别只有结合数据模态才有意义。在应用微生物学中，模型的性能和可解释性不仅取决于算法选择，还取决于输入数据的类型、质量和标准化程度。基因组、转录组、蛋白质组、代谢组、成像、表型和环境输入各自捕捉微生物生物学的不同层面，并且在维度、噪声结构、注释质量和跨研究可比性方面存在显著差异。因此，给定策略的适用性密切相关于数据模态，在一种微生物学输入上表现良好的技术可能无法可靠地转移到另一种。高通量组学数据集是微生物学机器学习中最广泛使用的输入之一。基因组序列无论是来自单个分离株还是整个群落，都可用于分类生物体、预测生物学功能和识别临床或环境相关性状。例如，结合支持向量机的k-mer特征实现了从16S rRNA基因序列进行分类学鉴定，而应用于宏条形码和宏基因组谱的监督学习已被用于预测环境生态状态和识别潜在的生物指示物。上述例子表明，输入模态限制了合理的模型类别。扩增子或基因组序列通常转换为k-mer或基因存在特征，这有利于支持向量机和其他高维分类器。宏条形码和宏基因组群落谱是组成型丰度矩阵，其中基于树的或正则化模型更适合生态状态预测和生物指示物排序。比较环境宏条形码基准测试表明，预处理和特征选择会改变模型性能。转录组谱可以将基因表达与微生物表型和生长相关性状联系起来。蛋白质组和代谢组谱可以支持菌株比较和生物标志物发现。然而，这些功能数据集对批次效应、标准化策略和实验背景特别敏感。因此，模型选择应遵循特征结构、样本量、预处理流程、噪声剖面和验证目标，而不仅仅是数据集的生物学标签。比较环境宏条形码基准显示预处理和特征选择会改变模型性能。扩增子工作流程应明确通过去噪或纠错来考虑测序错误，因为DADA2表明，对Illumina扩增子错误建模可以在减少虚假调用的同时解析真实的序列变体。可复现的微生物组流程还应记录质量过滤、嵌合体去除、分类分配、特征过滤和归一化，如QIIME 2所示。对于微生物组丰度矩阵，归一化还应考虑零膨胀、读段深度变化和组成型计数结构。在功能层面上，机器学习工具也被开发用于直接从宏基因组DNA中检测感兴趣的基因，包括抗生素耐药决定因子。转录组谱提供了额外的功能信息层，通常用于识别样本分组或将表达模式与生长行为等表型特征联系起来。蛋白质组学和代谢组学数据同样被用于生物标志物发现和菌株分类。与此同时，这些输入带来了独特的分析挑战。基因组序列可能受到组装质量不均、注释不一致和参考偏差的影响，而转录组、蛋白质组和代谢组谱通常对批次效应、标准化策略和实验背景更敏感。这些数据集的高维性也增加了过拟合的风险，使得仔细的特征选择和严格的验证在微生物学机器学习工作流程中尤为重要。尽管多组学整合可以提供微生物系统的更广阔视角，但其价值在很大程度上取决于数据集协调、元数据完整性、批次效应校正、适当的归一化以及可互操作的分析工作流程。最近的组学研究显示，批次效应会降低可复现性和跨研究可比性，使得在进行下游机器学习分析之前进行批次感知校正是必不可少的。RNA-seq数据集还需要考虑计数结构和转录组大小效应的标准化策略。在微生物组丰度数据集中，由于群落谱稀疏、高维且具有组成性，中心对数比（CLR）变换是一种常用的处理方法。如果不更加关注标准化和数据重用，即使是技术上强大的机器学习模型也可能难以进行基准测试、复现或在研究间推广。这些模态特异性约束不仅限于组学数据，还塑造了机器学习应用于视觉和表型微生物学材料的方式。特别是，深度学习通过实现从显微镜和菌落图像中自动提取视觉特征，扩展了微生物学图像分析。例如，基于CNN的模型可以在显微镜图像上训练，以检测和分类微生物，包括识别血涂片中的细菌和区分琼脂平板上的菌落等应用。此类系统可以提高通量和分性析一致性，特别是在人工图像评估劳动密集型的场景中，但报告的性能取决于图像质量、注释策略、数据集大小以及训练和测试条件的相似性。因此，在没有外部验证的情况下，基于图像的机器学习模型在跨实验室、成像平台或染色方案应用时应当谨慎解释。最近的基于图像的微生物学研究显示了为何应明确报告数据集大小和注释策略。在一个相衬延时数据集中，来自单物种微流控陷阱的3396个裁剪视频使用四种细菌物种的荧光信号进行标记。在一个临床革兰氏染色显微镜数据集中，1705张下呼吸道标本图像被手动注释了革兰氏阳性或阴性球菌和杆菌的检测和分割标签。当模型复杂度相对于样本量较高时，或者当训练和测试数据不独立时，尤其容易发生过拟合。建议的保障措施包括独立测试集、仔细的验证设计以及与更简单的基线模型进行比较。相同的逻辑适用于成像和表型数据集，当患者、菌株、平板、地点或实验室单位定义了独立性时，应在这些级别执行数据划分。超参数应在最终测试前调整，最终测试集应保持不动直至最后一次评估。基于图像的模型并非旨在取代分子检测，而是通常与基因组或表型数据结合使用时最有价值，此时它们可以增加互补的形态学信息并支持更综合的微生物学分析。除了组学和成像，应用微生物学还产生表型测量值，如生长速率、代谢活性、胁迫耐受性或细胞形态，以及环境和宿主相关变量，包括温度、pH、营养状况和宿主状况。这些变量可以作为输入特征或预测目标纳入机器学习模型。在这种情况下，将环境参数与基因组或群落特征一起添加，可以提高预测微生物生长或相互作用的模型的准确性。大型表型筛选实验，包括跨菌株的多条件生长分析，已使用聚类和预测工具进行分析，以识别微生物反应中的模式。同时，表型和环境测量通常对实验设计、批次效应和变量选择敏感，不相关或控制不佳的特征会降低模型稳健性并促进过拟合。当在标准条件下收集并在生物学背景下解释时，这些数据可以帮助将分子特征与表型性状和生态系统功能联系起来，从而增加基于机器学习的推理的生物学和应用相关性。

4.
应用微生物学中的应用

4.1 诊断与病原体鉴定

机器学习越来越多地用于微生物诊断，以从基因组和表型数据中加快和扩大病原体鉴定的规模，但其可靠性取决于数据质量、参考数据库覆盖率以及模型验证方式。基于序列的模型可以分析源自基因组的特征，包括原始读段和k-mer谱，以对细菌或病毒分类群进行分类，在某些情况下，还可以在同一工作流程中检测耐药相关特征。这些方法在高通量环境中特别有吸引力，但其实际价值取决于当在独立数据集、以前未见过的菌株或训练集中代表性不足的 taxa 上进行测试时，模型是否保持准确。因此，诊断性机器学习应与既定的微生物学工作流程进行比较，包括基于培养物的鉴定、基质辅助激光解吸电离飞行时间质谱（MALDI-TOF MS）、靶向PCR和表型抗菌药物敏感性试验，而不仅仅是与其他计算模型进行比较。在此背景下，有用的基准应报告机器学习是否在周转时间、分类学分辨率、耐药性检测或工作流程可扩展性方面相对于这些常规方法有改进。大规模基准研究说明了这些途径的前景和当前的局限性。在一项大规模的MALDI-TOF MS基准研究中，使用了来自2000多株菌株和1000多种细菌的约100000张光谱来评估三种单独测试场景下的物种鉴定。该研究没有依赖标准的k折交叉验证，而是将全局数据集按菌株级别划分为训练集、验证集和测试集，确保测试集中的菌株在训练期间不存在。这种设计允许评估以前未见过的菌株的性能，而单独的冻干保存数据集测试了训练数据中已存在菌株的生物学重复。第三个额外的TEST数据集用于评估混合设置，其中包括生物学重复、未见过的菌株和训练集中不存在的物种，从而近似分布外鉴定问题，而不是简单的数据库内分类任务。在这些条件下，当在未见过的菌株上测试模型时，性能低于已知菌株的生物学重复，这表明当相关光谱或菌株水平的重复在训练和测试之间共享时，标准验证会高估实际准确率。对于新物种检测，该研究进一步使用蒙特卡洛 dropout 在一维卷积神经网络中评估了基于不确定性的分布外检测，报告了AUROC和精确率-召回率指标，而不仅仅是物种水平的准确率。因此，病原体鉴定基准不仅应报告标题准确率，还应报告数据划分的单位、菌株重叠、分类学覆盖率和独立测试的构成。还应记录针对参考数据库中不存在或代表性不足的生物的性能，以及置信区间、不确定性估计或正式的统计比较。值得注意的是，一种使用数字全息术和深度神经网络的基于机器学习的显微镜平台，在浓度低至约1 CFU/L的情况下，在9小时内实现了细菌生长检测和物种鉴定，而该实验设置中的标准培养大约需要24小时。在盲测中，该系统在7-10小时内检测到90%的菌落，在12小时内检测到95%以上的菌落，7小时后精确度为99.2-100%，7.6-12小时内物种正确识别率约为80%。同样，常规临床MALDI-TOF MS鉴定正通过机器学习模型得到增强，这些模型可检测细微的光谱差异。这些方法可以提高属或种水平的鉴别能力，在某些情况下，还能实现对血清型或耐药相关表型的更精细区分，这是标准文库匹配可能遗漏的。即便如此，转化为常规诊断需要的不仅仅是强劲的内部性能。它还取决于标准化的样品处理、可复现的基准测试、与实验室工作流程的互操作性、监管接受度，以及明确的证据表明该模型在现有诊断流程之外增加了价值。综上所述，目前的研究表明，在定义的实验或实验室条件下，机器学习可以改善病原体鉴定，但用于常规临床部署的证据仍然有限。其诊断价值将取决于前瞻性多中心验证以及与现有工作流程的基准测试是否能证实在速度、准确性或决策方面的有意义改进，以及是否充分理解了失效模式以确保临床使用安全。

4.2 抗菌药物耐药性预测

抗菌药物耐药性（AMR）的兴起激发了人们对机器学习作为预测耐药表型和支持更早抗菌药物决策的浓厚兴趣。在这一领域，机器学习特别有吸引力，因为耐药性预测可以被框定为监督分类问题，使用与抗菌药物敏感性试验（AST）结果相关联的基因组、转录组、蛋白质组或表型输入。由于耐药和敏感分离株在抗生素中的代表性往往不均，抗菌药物耐药性模型应报告类别平衡并使用适当的处理策略，如分层划分、类别加权、重采样或阈值调整。性能还应包括不太受不平衡影响的指标，如平衡准确率、宏F1、敏感性和特异性。一种主要方法是利用全基因组测序（WGS）数据，在已知耐药表型的临床分离株基因组上训练模型，学习基因组内容（包括突变、基因存在与否以及k-mer特征）与药物敏感性之间的关联。与基于规则检测已知耐药基因相比，这些模型可能捕获更复杂的关系，包括多个位点之间的相互作用以及不易用传统基因型-表型规则表示的耐药相关模式。这些基于基因组的机器学习模型在经过精心整理的数据集中可以表现出强劲的预测性能，最近一项关于鲍曼不动杆菌的研究报告称，在多种抗生素中准确率为93-97%，同时缩短了与常规表型试验相比的报告时间。然而，这些数字值得谨慎解释。在鲍曼不动杆菌中，医院收集的分离株通常以数量有限的流行克隆谱系为主，特别是当分离株来自单一机构或狭窄的监测时期时。在这种条件下，密切相关的分离株可能出现在训练集和测试集中。然后，模型可能看起来高度准确，因为它学习了伴随该数据集中耐药性的谱系相关基因组背景，而不是耐药性机制本身。因此，由此产生的性能可能反映了群体结构和采样设计，而不仅仅是真正的预测信号。这种现象有时被称为谱系混杂，在抗菌药物耐药性预测研究中很少被明确控制，在鲍曼不动杆菌等物种中尤为严重，因为耐药性可能受到克隆背景的强烈结构化影响。在这些条件下报告93-97%的准确率，当针对真正的新菌株进行评估或在不同流行谱系、机构间进行评估时，模型的表现可能会差得多。在方法学上，可以通过将随机分离株水平的划分替换为考虑菌株亲缘关系、克隆谱系、机构来源或时间采样的分层设计来减少此问题。系统发育感知交叉验证尤为重要，在测试中保留完整的进化枝，因为它询问模型是否可以跨遗传上不同的背景进行泛化，而不是识别相关的分离株。如果可用，评估还应包括独立的医院、地区或国家级数据集，并分别报告每种抗生素的AUROC、平衡准确率和性能下降。模型还应与简单的系统发育基线和基于规则的抗菌药物耐药性预测因子进行比较，因为这有助于确定算法是否增加了超越群体结构或已知耐药决定因子的预测信息。更有意义的基准是对真正外部的分离株进行前瞻性评估，而不是对同一数据集进行更好分层的划分，并明确报告与训练数据的系统发育距离。这一要求得到了验证研究的支持，这些研究表明，当评估超出随机分离株水平划分时，抗菌药物耐药性预测性能可能会下降。在一项跨大陆验证研究中，在英语大肠杆菌基因组上训练的模型在非洲数据集上进行测试，显示了抗生素特异性的转移性。环丙沙星（50%准确率）和头孢噻肟（45%准确率）的外部表现较差，但氨苄西林（94%准确率）保持较高水平，这强调了泛化失败在不同药物间并不均匀。更广泛的基准分析还显示，在随机划分、系统发育感知划分和同源感知划分下，达到F1宏≥0.9的机器学习实验比例从64%下降到33%，再到25%。因此，高随机划分准确率应被解释为开发集估计，而不是模型在不同谱系、医院或地区保持临床效用的证据。另一种重要策略是在表型和蛋白质组数据上使用机器学习，包括质谱指纹图谱，以推断耐药表型以及生物体鉴定。例如，在细菌分离株的蛋白质谱上训练的算法可以支持抗菌药物耐药性预测，有可能在同一工作流程中结合鉴定和推定药敏评估。一个突出的例子是在金黄色葡萄球菌的蛋白质谱上使用基于随机森林的算法，在该研究设置内的常规鉴定过程中能够区分耐甲氧西林和甲氧西林敏感菌株。同样，其他研究表明，质谱峰或相关的表型特征的细微差异可用于将分离株分类为对特定药物的耐药或敏感。这些发现表明，应用于蛋白质组指纹图谱的机器学习可以扩展常规平台如MALDI-TOF MS的诊断价值，但报告的性能仍然高度依赖于物种背景、数据集组成、光谱预处理和实验室特定工作流程。因此，在单中心或特定生物体的研究中表现良好的模型，在被确认为稳健的临床决策支持工具之前，仍需要更广泛的外部验证。可解释性也很重要，尤其是在预测可能影响早期治疗选择而没有确证性表型试验的情况下。基于蛋白质和表型的机器学习方法代表了基于基因组的抗菌药物耐药性预测的有希望的补充，但其对抗生素管理的贡献仍取决于跨站点验证以及证明相对于现有诊断流程的附加价值。抗菌药物耐药性预测是微生物学机器学习中方法学上更为结构化的领域之一，因为耐药表型通常可以与精心整理的分离株数据集中的基因组衍生特征和AST标签相关联。但这应被理解为本综述框架内的定性评估，而不是跨应用领域的正式排名。其实际准备度仍然受到谱系混杂的限制，当密切相关的分离株在训练和测试集之间共享时，这会虚高性能。外部验证还表明，在一个地理区域训练的模型可能不均匀地转移到另一个地理区域。系统基准测试进一步表明，抗菌药物耐药性预测性能与验证策略密切相关，包括随机、系统发育感知和同源感知划分。因此，临床部署将需要前瞻性验证、与现有AST工作流程的透明比较，以及证明预测在不同谱系、机构和地区保持可靠的可靠证据。

4.3 病毒学

在病毒学中，机器学习应用于几个不同的任务，而不是单一的统一问题。对于病毒序列检测，机器学习模型可以帮助在宏基因组或临床测序数据中识别不同的病毒片段。对于宿主预测，监督模型使用病毒-宿主关联或共同进化特征来推断可能的相互作用。对于疫情建模，机器学习已被用于分析流行病监测期间的时间序列、流动性、气候和干预数据。在检查具体应用之前，有必要确定为什么病毒学给机器学习带来了结构不同的挑战。首先，病毒序列空间高度分化且采样不均。因此，参考数据库仍然缺乏更广泛的分类学和生态学覆盖范围。其次，病毒分类学不如细菌分类学稳定。因此，用于训练和评估的分类标签可能会随着病毒分类的修订而改变。第三，病毒进化可能在疫情期间挑战模型的稳定性。COVID-19预测评估显示了时间性能损失，这一点支持了上述观点。在美国CDC预测模型的一项分析中，约三分之二未能超过静态病例基线，三分之一未能超过简单的线性趋势。预测误差也随着连续的疫情浪潮而增加。西班牙的另一项研究报告称，当训练后出现新的SARS-CoV-2变体时，机器学习预测模型会退化，尤其是在奥密克戎相关期间。第四，宿主预测数据集偏向于实验上易处理的病毒-宿主系统。这使得许多相互作用未被采样或以不确定的阴性标签表示。精选数据集仅捕获了宏基因组调查中恢复的病毒多样性的一小部分，这种实验测试对与实际序列空间之间的差距是模型训练和评估的结构性制约因素。这些结构特征意味着病毒学中的机器学习通常在比其他许多微生物学领域更大的不确定性下运行。因此，性能基准应报告时间验证、变体周期测试以及与简单基线模型的评估。在病毒学任务中，评估还应根据生物学终点进行标准化。病毒检测模型应报告敏感性、精确率、片段长度、参考数据库覆盖率以及在未见过的病毒组上的性能。宿主预测模型应报告敏感性、特异性、精确率、假阳性率、宿主分类学水平以及预测的相互作用是否经过实验验证。疫情预测模型应报告时间验证、校准以及与简单基线的比较。当病毒进化可能在训练后改变模型性能时，也应报告变体周期测试。

热点排行