综述:机器学习与统计推断在微生物群体基因组学中的应用

【字体: 时间:2025年09月29日 来源:Genome Biology 9.4

编辑推荐:

  本综述系统探讨了机器学习(ML)与统计推断在微生物基因组大数据分析中的互补作用。文章对比了二者在预测性能与机制解析上的差异,结合弯曲杆菌溯源、抗生素耐药性(AMR)全基因组关联分析(GWAS)及表型预测等案例,为病原体研究提供了融合数据建模与算法建模的分析范式(DOI: 10.1186/s13059-025-03775-4)。

  
背景
技术进步和数据生成推动了微生物学的大数据革命,研究通常涉及分析数千个全基因组序列。数据集在体积、多样性和生成速度上的不断提升带来了巨大机遇,也带来了独特的分析挑战。受更深入理解的承诺和高通量低成本DNA测序的驱动,目前细菌物种的基因组库已接近百万个基因组。实现这些资源的潜力需要扩展传统的统计方法,这些方法在处理高维数据时面临挑战,需要进行简化和近似。这似乎是一个悖论,因为现代资源的大量信息内容应该更容易获得关于进化起源、传播动态和表型多样性的遗传基础的生物学见解。机器学习(ML)方法提供了一个潜在的解决方案,因为它们可以处理非常大和异质的数据集。ML是一个多学科领域, heavily 依赖统计学和计算机科学。利用数据的定量方法是这两个领域的基础,但为了本综述的目的,我们采用以下区分:统计推断是促进我们对世界的科学理解的工具,而ML是工程化可自动化解决方案以进行预测、模拟和模式识别的工具。
ML在生成式人工智能(AI)方面取得了突破,包括自然语言、图像和音频创建。在生物科学中,ML在预测3D蛋白质结构、将纳米孔电位转化为DNA碱基识别以及从大型蛋白质和宏基因组数据库中发现抗菌肽方面超越了人类设计的解决方案。在微生物群体基因组学中,当代的大数据全基因组方法通常结合统计推断和ML来回答与传染病进化和流行病学相关的各种问题。这些包括预测未来事件(例如,疫情爆发)、理解变量的影响(例如,毒力和耐药基因)以及发现数据模式(例如,感染风险的共性)。通常,最佳工具的选择并不明确或模糊。在这里,我们通过总结方法并讨论示例,为微生物群体基因组学中不同问题的统计推断与ML的适用性提供一些观点。
机器学习与统计推断的原理
ML和统计推断是用于建模通常庞大且复杂的数据的工具,这些数据已被数值编码为一个或多个变量,例如输入特征x和结果y。一个统一的概念是数据生成过程,它代表了导致手头数据的底层科学和采样过程。ML和统计学都试图将数据生成过程近似为一个数学函数。 broadly speaking,统计学倾向于采用基于理解底层过程愿望的模型,而ML采用可以忠实再现观察模式的灵活模型,与底层过程无关。
在建模数据生成过程的方法上,已经区分了竞争的方法:数据建模和算法建模。传统上,数据建模一直是主导范式,特别是在统计学中,其中数据生成过程通过基于变量之间关系的假设(确定性和随机性)推导模型来近似。数据建模强调模型的可解释性和建模假设的透明度。模型复杂性通常通过权衡现实性与可处理性、考虑简约性和计算负担来选择。在数据建模方法中,通常特别强调领域特定知识和概率模型。然而,模型不必复杂,简单的加性线性假设支撑了线性回归、逻辑回归和ANOVA等常用工具。
相比之下,算法建模旨在提供对未知数据生成过程的通用近似,而无需详细的先验知识。ML的最新进展将注意力集中在算法建模上,这也包括非参数统计技术。它依赖于能够准确再现复杂数据结构的灵活算法,在非常一般的设置中。这种灵活性通常需要参数丰富的模型,这些模型需要大量的训练数据集。因此,ML中的算法开发优先考虑计算效率。深度神经网络已证明特别擅长算法建模。此外,ML工具包包括各种技术,其中许多可在Python软件库(如Scikit-Learn、PyTorch和TensorFlow)中获得。
监督学习与无监督学习
在监督学习中,一个数学函数模拟代表特征x和结果y的变量之间的关系,通常旨在解释或预测y关于x的关系。通常y是低维的;它可以是二元的,例如描述事件是否发生,分类的,描述几种可能结果之一,或连续的。相比之下,x通常是高维的,由许多可能影响或预测感兴趣结果的输入组成。在微生物群体基因组学中,y通常是一种表型,如药物敏感性,x可以代表基因组序列。基因组通常为此类分析进行数值编码,如下所述。监督学习包括熟悉的方 法,如分类和回归,用于建模基因型到表型的关系(例如,)。无监督学习中,一个数学函数模拟数据x内部的关系,通常是为了揭示隐藏的结构或模拟新数据。在最近的方法中,例如为ChatGPT提供动力的大型语言模型(LLM),x代表数字编码的文本,数量达数千亿单词。在微生物基因组学中,无监督学习的一个重要应用是检测遗传聚类(例如,)。
基因组序列数据的特征工程
在分析基因组数据之前,分子序列必须编码为特征或数字向量。通常,特征是根据遗传变异定义的——序列中在两个或多个基因组之间不同的部分。特征通常相对于参考基因组定义。例如,单核苷酸多态性(SNP),可以编码为二进制向量的元素,代表每个基因组中的参考等位基因(例如,用数字0)或非参考等位基因(1)。如果存在多个非参考等位基因,则第二和第三非参考等位基因由额外的二进制向量表示,因此一个SNP生成多个特征,称为虚拟变量或独热编码。同样,特定基因座的等位基因可以用二进制向量表示,记录每个非参考序列在每个基因组中的存在(1)或缺失(0)。如果一个基因座有K个等位基因,这会产生K个特征。对于辅助基因,整个基因座的存在或缺失可以编码为二进制向量。
无参考方法也很流行。基因组组装或蛋白质序列可以被切分成短的重叠窗口,称为k-mer,其中k代表序列长度。每个k-mer在每个基因组中的存在或缺失可以编码为二进制向量。非常短的k-mer(k<5)对于核苷酸组成具有信息性,而范围在10-50的k-mer可以捕获SNP、indel和基因存在或缺失的基因座特异性变异。如果k长得多,k-mer变得罕见或对单个基因组唯一,因此对于推断或预测的用处较小。k-mer的更高级用途减少了特征数量同时保留其生物学意义,例如通过合并那些在所有基因组中总是(或有时)共享相同(或相似)存在与缺失模式的k-mer成更少数量的unitig(或嵌入),这些被编码为二进制(或连续)向量(例如,)。
生物学问题与分析目标
将分析目标牢牢地框定在生物学问题的术语中有助于缩小适当的ML或统计推断工具的范围。生物学问题映射到分析目标,包括(i)数据探索,(ii)预测,(iii)参数估计,和(iv)假设检验。在数据探索中,目标通常是熟悉、可视化或假设生成。这些目标是开放式的,但它们有一个共同主题,即识别或传达数据的重要特征,或者相反,不遗漏数据的重要方面。通常,分析目标可以通过一个受约束或最小化的损失函数形式化。考虑损失函数有助于比较ML和统计方法。
在预测中,目标是通过利用观察数据中的模式来预测、插补、分类或模拟新的、未观察到的或故意屏蔽的数据,同时最小化预测误差:真相与预测之间的差异。预测的常见损失函数包括连续结果的平方误差或离散结果的0-1误分类误差,其中1表示错误分类,0表示正确分类。
在参数估计中,目标是精确量化假定描述数据生成过程的数学模型的参数。估计的常见损失函数包括误差、绝对误差和平方误差。最后,在假设检验中,意图是得出定性结论,例如一个变量影响结果。这里,误报通常编码为0-1损失函数,指示零假设是否被错误地拒绝(1)或没有(0)。
性能比较
ML和统计方法的性能可以通过在观察数据点(经验风险)、先验分布(贝叶斯风险)或数据生成过程的理论重演(频率主义风险)上平均损失函数来比较。经验风险方便,但需要基本事实,因此最适用于预测,其中预测可以直接与故意屏蔽或留出以测量预测准确性的观察数据进行比较。ML提供了一个丰富的灵活算法工具箱用于预测,这通常有助于分析者实现比单独使用传统统计方法更小的经验风险。
当基本事实不可用时,统计方法很有用,例如在估计参数和检验关于未观察过程的假设时。最大似然估计和似然比检验是广泛使用的经典方法,它们最小化或约束频率主义风险,如均方误差(用于估计)和族错误率(用于假设检验)。这些保证受技术假设的约束,如大样本量 和(用于假设检验)模型的嵌套。当我们愿意对未知参数的可能值进行先验假设时,贝叶斯推断对于参数估计和假设检验很有用,因为它最小化或约束贝叶斯损失函数,如均方误差(用于预测或估计)和错误发现率(用于假设检验)。它不依赖于大样本量等假设,但贝叶斯方法可能计算密集。
模型拟合
当基本事实可用时,数据通常分为训练集和测试集,允许经验风险在训练期间最小化并在测试期间测量。参数使用训练数据进行优化,然后使用测试数据评估最终性能。想法是获得一个独立的、无偏的性能估计,但这可能被训练和测试数据之间的依赖性破坏。有时ML模型涉及在训练期间难以拟合的超参数,因此使用中间验证集通过网格搜索优化它们。交叉验证是一种流行的技术,用于通过对数据的不同分割方式求平均来评估模型的泛化能力。在经典和贝叶斯统计学中,对于估计和假设检验,通常使用全部数据来拟合模型,因为贝叶斯风险或频率主义风险可以在理论上优化。这更有效地利用了数据。
在ML和统计推断中,特别是在参数丰富或数据有限的设置中,过拟合风险导致噪声参数估计和对其他数据的差泛化性。为了减轻过拟合,通常实践正则化,其中参数值以某种方式被约束。正则化的例子包括惩罚似然和贝叶斯先验。集成方法,如随机森林中的Bootstrap聚合和梯度提升树中的提升,通过跨伪复制数据优化性能来减少过拟合。相比之下,人工神经网络中的dropout通过跨随机修剪的网络优化性能来避免过拟合,以在训练期间建立韧性并避免神经元的不稳定过度专门化。ML中的训练算法通常可以通过修改称为学习率的调优参数来调整以减少过拟合,并开发称为早停规则的策略。对过拟合的担忧必须与通过差拟合或欠拟合模型过度校正进行权衡,这种平衡称为偏差-方差权衡。
微生物基因组学中常见的机器学习分类器
在分类中,挑战是预测或解释结果变量y,一个分类变量(或“类”),它取固定数量的值(或“标签”)之一,使用特征x中的信息。通常,算法具有通过优化训练数据集中的准确性来校准的参数。有几种常见的ML分类器用于微生物基因组分析,具有不同级别的复杂性。最早的分类算法之一是k-最近邻。这里,推断的类是在最接近x的k个训练数据点中最常观察到的类,在某种 sense 上。这需要一个距离度量。应用包括从DNA序列预测基因功能和表型。另一个相对简单的方法是高度可扩展的朴素贝叶斯方法,其中使用贝叶斯定理分配类,假设特征之间独立。这里,推断的类是后验概率最高的类。统计分布(例如,高斯、伯努利)被假定为条件似然,其参数必须学习。应用包括疾病诊断和基于序列的基因组、宏基因组和水平转移基因的分类学。
有几种更复杂的方法,包括支持向量机、决策树和人工神经网络。支持向量机提供了一种基于核的灵活分类方法,核测量数据点之间特征的相似性。非线性核促进了像图像分析这样的困难问题中的分类。结果可能对调整参数敏感。应用包括检测水平基因转移、从基因组序列预测分子表型以及分类宿主特异性。
决策树可以比作生物学野外指南中用于识别物种的钥匙。这里,决策树代表一个规则的分层序列,使用特征来分配标签或类。规则使用启发式“贪婪”算法进行训练,并进行修剪以减轻过拟合。易于解释的单个决策树通常以集成方式使用以提高准确性并减少噪声。著名的随机森林是一种集成方法,其中在训练时重复对特征和数据点进行子采样(“Bootstrap”),以构建许多决策树。使用跨树的最频繁分类(“聚合”),这提高了准确性。应用包括预测致病性、疾病状态、抗菌素耐药性、基因组内容和宿主特异性。梯度树提升是另一种集成方法,其中决策树森林逐步生长,最后一棵树被训练以改善前一步的预测,通过损失函数评估。应用包括从相关基因序列预测pH偏好和抗菌素耐药性。
最后,受神经科学启发,人工神经网络(ANN)已成为微生物基因组学中一种流行的ML方法。ANN由简单函数(人工神经元)的有向图(网络)组成。ANN在架构上有所不同,但通常将神经元组织成观察到的(输入和输出)层和一个或多个隐藏层。通信发生在ANN的层之间。深度学习采用具有多个隐藏层的ANN,这产生了具有大信息处理能力的复杂灵活模型。大数据可用性、GPU(图形处理单元)和理论创新的进步允许高效地拟合参数丰富的ANN。应用包括从DNA序列识别物种、菌株和基因功能。ANN表现良好,部分是因为它们通过近似任意连续关系充当通用函数逼近器,给定足够的隐藏神经元,部分是因为拟合技术被认为施加了正则化(例如,)。注意力机制使一些ANN,特别是Transformer,能够基于上下文动态加权输入元素的影响,而不是依赖固定的连接模式。这允许网络选择性地关注输入的最相关部分,无论其位置如何。注意力对于分子序列或三维蛋白质结构中的依赖关系很有用,传统架构难以传播长程信息。注意力机制允许每个输入元素直接并行考虑所有其他元素,避免了重要但遥远信号的稀释。注意力在生成式AI、抗生素预测和蛋白质结构预测方面取得了突破。
机器学习与统计学的优势与劣势
对生物学问题的清晰陈述通过确定要最小化的损失类型来指导分析目标。最小化估计误差 versus 预测误差 versus 误报指导方法的选择。旨在因果理解底层过程的数据分析更适合统计推断,因为它将最小化与估计和假设检验相关的(贝叶斯或频率主义)风险。旨在优化模型不可知问题解决性能的数据分析更适合ML,因为它可以在基本事实可用时最小化预测的(经验)风险。主导的统计范式强调简约性和可解释性等原则,而复杂的ML算法可以产生明显优于统计学中常见简单模型的性能。这在经典的监督学习示例(如XOR问题)中得到了例证,其中输出不是输入数据的线性函数。
开箱即用,许多ML方法比传统统计方法(如回归)更好地处理共线性、非线性和交互作用。经验丰富的统计学家可能使用正则化来 counter 由强相关或共线性特征引起的不可靠参数估计和高不确定性,但正则化作为标准内置在许多ML算法中。特征和结果之间的非线性关系,以及特征之间的交互作用,也可以在统计上建模,但这需要数据分析师的一些复杂性和手动干预,而许多ML算法设计为自动建模这些现象。ML算法通常可以在数千个特征中优先排序,允许用户对特征选择采取不可知论的方法。然而,复杂ML的代价是模型的工作和参数对解释不太透明,通常称为黑箱。
机器自动化的强大性能和模型不可知论的优势降低了对数据质量问题的人类问责制的感知重要性;这被称为自动化偏差。有偏采样和批次效应通过产生可能误导或泛化性差的结论,给ML和统计推断都带来了问题(见“数据质量和审问结果”)。此外,与可解释性、平等和问责制相关的担忧在许多设置中很重要,特别是在医疗保健中。因此,存在于模型在特定损失函数意义上的性能与其对社会的更广泛效用之间的权衡可能会改变偏好ML与统计推断之间的平衡。ML vs 统计学和数据建模 vs 算法建模的二分法让人想起演绎(基于逻辑的)vs 归纳(基于观察的)科学推断之间更基本的区别。ML的根本经验主义建模方法是数据驱动和数据饥渴的,这解释了它对大数据的依赖和对有偏数据集的敏感性,但也解释了其卓越的灵活性以更紧密地拟合数据。
数据质量与审问结果
“垃圾进,垃圾出”是ML和统计学中的老生常谈:适当的数据准备和质量检查(QC)对任何分析都是不可或缺的。研究人员必须采用策略在分析之前和之后诊断数据质量问题。
作为第一步,必须了解数据的来源、其局限性以及它是否足以满足分析目标。接下来,必须使用包括汇总统计和可视化在内的方法对数据进行质量检查,以诊断数据输入错误、异常值、缺失值和特殊值等问题。数据必须正确编码,尤其是缺失值或特殊值,以确保ML或统计算法正确处理它们。可能需要一个插补步骤来预测缺失值。除了QC,数据探索对于假设生成和选择做出合理假设的适当模型很有价值。
在合并可能在不同地点、不同时间、通过不同过程或为不同目的收集的数据集之前,重要的是要考虑分析可能如何受到异质性的影响——数据集之间的系统差异。例如,它们之间可能存在未测量的混杂因素。结果跨数据集的系统差异使分析特别容易受到所谓的批次效应的影响。有时异质性通过将批次标签作为特征包含来“控制”。一个更稳健但效率较低的方法是元分析,其中数据集被单独分析,并在分析后比较结果,如果合适则合并。通常这很适合训练、测试和验证,特别是因为样本外预测比分割单个数据集更能指示泛化性。
分析后,必须再次审问数据以了解信息信号的来源,并诊断未解决的QC问题或实现错误。健康的怀疑态度,特别是对于令人惊讶的结果,很重要,并考虑以下问题:(i)结果与文献相比如何?(ii)结果对分析假设是否稳健?针对更简单方法的基准测试可以帮助解释数据中的信号——例如使用可视化或可解释的AI——否则可能难以说服同行。通常需要实验验证和在独立数据集中的复制以建立可信度,并且重复另一句老话,“非凡的 claims 需要非凡的证据。”
微生物基因组学中ML和统计学的应用
在本节中,我们考虑ML和统计学在微生物基因组学中的应用,并在三个示例的背景下讨论竞争方法的相对优势:人畜共患细菌的源 attribution、抗菌素耐药性的全基因组关联研究以及从基因组序列预测抗菌素耐药性。
示例1:弯曲杆菌的源 attribution

prediction#classification#supervised_learning#machine_learning.

特征(x): 基因组序列。 结果(y): 宿主物种来源。
识别细菌感染的种群来源对一系列病原体具有实际应用,特别是像沙门氏菌、大肠杆菌和弯曲杆菌这样在人类中引起人畜共患感染的多宿主生物。弯曲杆菌(人类胃肠炎的常见原因)的人传人很少见,大多数病例由食用受污染的食物引起。弯曲杆菌通常定殖于鸟类和哺乳动物(包括为肉和家禽养殖的动物)的肠道,并存在于环境水中。因此,每个人类病例被认为起源于一个源库,预测或“归因”源是有用的。源 attribution 通过告知 efforts 以 disrupt 传播链来帮助预防未来的人类病例。
DNA测序已被利用于弯曲杆菌的源 attribution,使用各种工具。数据通常包括从人类感染病例中分离的弯曲杆菌的DNA序列,以及用于比较的来自动物和环境库的序列。早期方法追求统计流行病学模型,使用菌株级指定来排除传播(例如,)。后来,应用了基于群体遗传学的统计模型,如Structure和iSource,它们利用了DNA中更多的信息。然而,源 attribution 可以表述为一个直接的ML问题,其中分析目标是最小化误分类误差。直接从源种群采样的弯曲杆菌DNA序列可用于训练具有已知标签(例如,牛、羊、猪、鸡、环境水)的分类器。可以使用交叉验证测试分类器准确性。然后可以从DNA序列预测每个人类病例的种群来源。ML分类器被证明比应用于多位点序列分型的既定统计方法更快且准确率高出约11%(71% vs 64%),并且很容易推广到全基因组测序(WGS)数据的分析,允许33%的准确性增益(85% vs 64%)。随机森林和XGBoost产生了最大的改进。ML在此背景下成功的关键是包含数千个具有高度重复性的全基因组的大数据的可用性:从感兴趣的源种群采样的5799个基因组,以及来自人类感染的15,988个基因组。
示例2:抗菌素耐药性的全基因组关联研究

hypothesis_testing#parameter_estimation#regression#statistics.

特征(x): 基因组序列。 结果(y): 抗菌素耐药性或敏感性。
二十一世纪生物学的一个主要目标是 unravel 物种内表型多样性的遗传 architecture。在微生物学中,对影响人类定殖和感染结果的性状特别感兴趣,如毒力(疾病的频率或严重程度)和抗菌素耐药性(AMR)。此类问题的早期方法研究候选基因,例如使用PCR测试病例和对照之间遗传标记频率的差异(例如,)。随着基因分型阵列和后来全基因组测序等技术的出现,此类问题的公认方法是扫描基因组以寻找等位基因差异与表型差异之间关联的证据。所谓的全基因组关联研究(GWAS)解决了候选基因方法容易受到选择和报告偏倚的影响,并且难以控制由表型的种群分层引起的虚假关联的担忧,例如当表型在菌株之间不同时。
GWAS的动机是希望了解数据背后的因果过程,并采取措施避免虚假的关联信号,同时承认观察性研究不能证明因果关系(例如,见,)。这是一个统计推断问题,其中相对简单且易于审问的通用线性模型的参数被解释以识别 responsible 可观察表型多样性的遗传变异。特别强调限制由误报关联引起的预期损失。在细菌中,GWAS已应用于一系列性状和物种(例如,)。虽然ML方法已应用于此问题,并且对于数据探索和假设生成有信息,特别是在专家手中,但ML方法仅返回有助于预测结果的“高杠杆”基因或遗传变异。开箱即用,它们既不检验也不量化这些变异直接影响结果的证据。它们也不提供跨基因座轻松控制族错误率或错误发现率的理论或经验工具。统计方法解决了这些基础问题,并且 mapping underlying AMR的基因已被证明特别富有成果(例如,),大概是因为遗传耐药性的机制通常是直接的,几乎是确定性的。GWAS依赖大数据来寻找关联信号,但这些信号的解释依赖于显式建模假设,而不是使用许多已知基因型到表型关联的数据集训练通用算法,这些数据集尚不存在。
示例3:从基因组序列预测抗菌素耐药性

prediction#classification#supervised_learning#interpretable_machine_learning.

特征(x): 基因组序列。 结果(y): 抗菌素耐药性或敏感性。
与推断哪些基因赋予抗菌素耐药性相关的问题是从单个细菌基因组预测抗菌素耐药性的问题。过去15年中,临床实践中微生物学诊断的现代化一直是研究的主要焦点,期望用简化的WGS和表型预测流程取代一系列表型测试。WGS在某些医疗环境中已成为常规,特别是对于实验室测试具有挑战性的生物,如生长缓慢和高生物安全级别的病原体结核分枝杆菌。
用于GWAS的统计模型可以转向预测,但ML算法更优越的灵活性以更紧密地拟合数据使其成为预测AMR的自然选择(例如,)。在此设置中,分析目标是最小化预测误差,因为基本事实可用,可以凭经验量化。已经生成了包含WGS和传统AMR表型测定的大型数据集,基于这些,已经实现了高精度的自动化预测——在某些情况下超过了传统实验室诊断 required 的标准——确认了ML算法在通用预测方面的优异性能。
ML在AMR预测中的表现确立了其作为从WGS数据预测各种细菌表型的重要工具。然而,存在问责制的问题:在医疗环境中,决策责任在于临床微生物学家。因此,ML算法需要透明地呈现其预测的证据,以供领域特定专家解释。像这样的场景产生了对可解释AI的需求,这远远超出了输出预测特征的系数,这些特征可能仅仅是混杂因素,而不是生物学上因果的遗传变异,特别是在存在种群分层的情况下。可解释AI的方法包括归因算法,这些算法可能施加预测的事后线性化(例如,)。这导致回到更简单、更透明的数据模型,类似于加性或线性模型。或者,消融算法系统地从模型中丢弃感兴趣的特征以评估它们对性能的影响。因此,即使通过复杂ML进行预测,解释预测的努力也可能类似于更传统的统计分析,其中高度重视以因果方式理解数据的结论和解释。
统计学与机器学习:合适的工具用于合适的工作
ML和统计学之间的界限是模糊的,具有交叉方法,如弹性网络、bootstrap、非参数统计和贝叶斯启发的方法。标签“机器学习”和“统计学”通常不如分析目标的明确定义有用——预测、探索性数据分析、参数估计、假设检验——这些又由生物学问题框定。当一个项目有多个目标时,例如预测和假设检验,将不同的分析方法应用于相同的数据是合理的。然而,如示例3所示,即使任务 clearly 符合预测的目标,方法的选择也受到情境特定考虑的影响,特别是可解释性和问责制。通常在科学应用中,强调理解和解释数据生成过程,这可能使平衡远离ML而倾向于统计推断。在真实数据分析中审问结果、检测数据质量问题(如批次效应)、解释哪些信号驱动结果、控制混杂因素以及理解泛化性的限制,对于科学输出的完整性至关重要。制定检查科学结果的策略是迈向科学独立性的关键一步,允许研究人员对最终结论负责。自动化偏差的风险,即将最终结论的责任委托给不透明算法,以及批判性思维的 abdication,理所当然地受到关注。
结论与未来方向
我们目前处于一个探索时期,因为ML和AI越来越多地应用于 diverse 问题,如“毒力的遗传 architecture 是什么”、“为什么危险病原体会出现”以及“我们如何对抗抗菌素耐药性的传播”?在相关领域,我们已经看到了变革性的创新,从预测3D分子结构到抗菌肽发现,以及展望未来,基于自由文本设计 novel 蛋白质和分子系统。在微生物群体基因组学中,我们预计ML将继续发挥主导作用,既通过改进以前的方法,也通过开辟新的研究途径和理解。如果在未来几年对ML和AI在微生物基因组学中的作用进行最终分析,无疑将重新强调演绎统计思维的持久重要性,目前随着ML带来的新机遇占主导地位,这种思维不那么流行。统计学为科学思想提供了基础,阐明了研究设计、随机化、重复、控制、批次效应、中介和混杂、因果关系和相关性等概念。科学进步是一个持续的过程,因此不会有最终分析。相反,我们期望最近AI/ML的发展与完善的统计方法逐渐 assimilate 成一个新兴的数据科学领域。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号