综述:机器学习在生物学研究中的应用:关键算法、应用场景与未来方向

《BMC Biology》:Machine learning in biological research: key algorithms, applications, and future directions

【字体: 时间:2025年10月30日 来源:BMC Biology 4.5

编辑推荐:

  本综述系统阐述了机器学习(ML)在生物学研究中的关键作用,重点介绍了四种核心算法(普通最小二乘回归、支持向量机、随机森林和梯度提升机)的原理及其在系统生物学、疾病预测、宿主分类等领域的应用。文章强调了ML在处理复杂生物数据(如基因组学、蛋白质组学)时的优势,并探讨了其面临的挑战(如过拟合、可解释性)与未来发展方向(如深度学习、可解释AI),为跨学科合作提供了实用指南。

  
背景
机器学习(Machine Learning, ML)作为人工智能(Artificial Intelligence, AI)的一个重要分支,已成为推动包括生物科学在内的多学科前沿研究的标准工具。尽管机器学习领域已存在数十年,但随着新数据集的涌现、现有数据集规模的扩大以及计算技术的进步,其应用潜力依然巨大。机器学习专注于构建能够从数据中学习的计算系统,这些系统无需显式编程即可提升性能。与统计学等学科相比,ML 明确考虑了学习过程中的权衡,例如预测精度与模型复杂性之间的平衡,以及模型的泛化能力(即模型在未参与训练的新数据上的表现)。ML 算法从数据中开发模型进行预测,而非遵循静态的程序指令。因此,在数据上训练模型的过程对于揭示数据中不立即显现的模式至关重要。ML 的一个核心挑战在于管理预测精度与模型泛化能力之间的权衡,这直接关系到解决过拟合(模型过于复杂导致泛化能力差)或欠拟合(模型过于简单无法捕捉潜在趋势)等问题。在实践中,ML 的目标是建立能够有效地从训练数据泛化到遵循相同分布的新数据的模型。
除了实现直接预测(如预报、分类)外,ML 还能帮助研究人员从数据中做出解释性推断。在推断性任务中,可解释性(即确定哪些变量驱动模型的决策以及输入数据的变化如何影响结果的能力)和变量的重要性往往比简单的准确性指标和模型在测试数据(即训练期间预留的数据)上的性能指标更为重要。此外,ML 包含广泛的算法,主要分为三类:监督学习(依赖于带有注释的标记数据)、无监督学习(旨在识别未标记数据的底层结构)和强化学习(模型通过迭代试错过程,根据每一步分析所获得的奖励来做出决策)。尽管本文主要关注监督学习,但我们也会简要提及某些算法可以在监督或无监督学习框架下工作的特定场景(例如下文将提到的支持向量机)。总的来说,理解日益复杂的数据集中数据点之间的关系和结构,在生物学研究中正变得愈发关键和普遍,这类问题凸显了选择能够处理数据的特定 ML 方法的必要性。
ML 已成为生物学研究中众多任务不可或缺的一部分。例如,ML 显著提高了预测建模的精确度、准确性和效率,解决了从分子结构预测到“组学”水平分析,再到害虫识别和生态预报等多个尺度的生物学问题。这些算法提升了基因组数据分析的性能,并影响了多个领域的个性化医疗和基因工程。如今,ML 在自动化数据处理方面非常有用,包括下一代测序和高内涵筛选等高通量技术,减少了人为错误,甚至提高了实验的通量和可扩展性。ML 促进了复杂数据集(如基因组学、蛋白质组学、代谢组学数据)的整合,使得能够对生物系统进行综合建模(例如系统生物学中的网络建模)。这些整合使研究人员能够在理解系统水平相互作用时融入更多的真实性,特别是在癌症生物学和神经生物学等领域。在生态和环境研究中,ML 模型常用于预测环境变化对生物多样性的影响,并指导在气候变化和栖息地丧失背景下的保护工作。在基因组学中,由于数据的复杂性和海量性,ML 的使用已成为标准实践,辅助进行基因表达谱分析、单核苷酸多态性(Single-Nucleotide Polymorphism, SNP)识别和基因组测序等任务。在蛋白质组学和代谢组学领域,ML 是蛋白质分类、功能预测和代谢网络分析等任务的核心。疾病预测和预防严重依赖 ML 框架,该框架现在已成为模拟疾病爆发和进展的标准工具。ML 方法在系统生物学中也至关重要,算法通常帮助揭示细胞内外以及生物体之间的相互作用。同样,ML 被用于模拟生态动力学、评估气候相关因素对生物多样性的影响以及支持保护生物学。在农业领域,ML 程序被用于预测作物产量、优化资源利用和有效管理害虫控制。目前产生和分析数据的生物学大多数领域都可能正在应用某种类型的 ML 来构建模型和预测模式。
本综述重点介绍了四种被广泛采用、经过充分测试并构成该领域更先进技术基础的机器学习算法。我们描述了这些算法,总结了它们在常用编程语言(R 和 Python)中的实现,并通过系统的文献回顾概述了它们在生物学中的近期应用。最后,我们提供了关于这些工具扩展到更大数据集的前景展望,以及该领域的未来方向,包括神经网络的应用。我们的目标是为 ML 在生物学中的应用提供最新的视角,并基于 ML 应用建立生物学各学科之间的联系。
四种关键的机器学习算法
我们重点回顾基于线性回归、随机森林、梯度提升机和支持向量机的近期研究。对于每种算法,我们提供了最新的介绍,随后是该方法的技术描述。接下来,我们概述了每个算法在近期具有相对影响力的两个精选应用案例。这些案例研究是基于系统综述筛选的。我们还讨论了相关的挑战和注意事项,包括过拟合、数据需求和生物学背景下的可解释性。最后,在适当的情况下,我们讨论了神经网络作为潜在的相关领域,以及用于预测作物产量的 ML 程序。
reviewed algorithms were selected based on (1) widespread adoption across biological disciplines; (2) balance between predictive accuracy and interpretability; (3) complementary methodological approaches spanning linear, ensemble, and kernel-based methods; (4) accessible implementations in R and Python; and (5) their known scalability across diverse dataset sizes common in biological research. We also highlight that the emphasis on supervised learning reflects current biological research priorities where labeled datasets (diseased/healthy, species classifications, functional annotations) are increasingly available through large-scale genomic, proteomic, and phenotypic studies.
对于每种算法,我们根据筛选出的文献描述了两个案例研究。简而言之,我们搜索了使用这些算法的生物学论文,按引用次数大致排序,然后从一个经过人工审阅、证明能清晰展示目标算法成果和意义的论文子集中选出了前两篇。我们将最终确定的论文集整理成一个电子表格。排除了2020年以前发表的论文、无引用的论文以及被多次检索到(用于多个模型)的论文。然后,我们根据检索时的引用次数对每个算法的论文子集进行排序。对于每种算法,我们保留了引用次数排名前50的论文。接下来,我们人工审阅这些论文以选择案例研究。我们排除了综述文章、书籍章节、未明确使用目标方法的论文、未将其用于生物学研究的论文,或者机器学习方法未对主要结果提供信息的论文。我们从每个集合中选出了最能清晰展示使用目标算法成果和意义的前两篇论文。
普通最小二乘回归
概述
普通最小二乘(Ordinary Least Squares, OLS)是一种用于估计线性回归模型参数的统计方法。OLS 有时也被称为“最佳拟合线”。该方法侧重于最小化残差(数据集中观测值与模型预测值之间的差异)的平方和。在线性回归中,因变量 yi 与一组自变量(矩阵 xi)之间的关系通常表示为 yi = α + βxi。系数 β 代表回归参数,总结了每个输入特征对因变量的影响。项 α 是截距,表示当所有 xi 值为零时 yi 的基线值。OLS 明确目标是残差平方和,由公式 ∑i=1n(yi - α - βxi)2 给出。最小二乘法选择 α 和 β 以最小化残差平方和。使用平方误差是一种分析上的便利,但可能过度强调异常数据点。通过微积分可以证明,使残差平方和最小化的 α 和 β 值为特定公式。OLS 在其基本假设得到满足时效果最佳,但也存在针对各种情况的扩展。例如,通过将平方误差改为绝对误差或中位数误差,可以减少异常值的影响。或者,如果关于参数的预期分布有先验知识,贝叶斯回归可以为频率主义框架提供可行的替代方案。定义参数的先验分布是一种“正则化”形式,通常有助于模型避免过拟合并更好地泛化。同样,如果因变量是离散类别,可以将 OLS 修改为逻辑回归等类似模型。由于在科学领域已应用数十年,针对许多特定情况存在大量 OLS 变体。
OLS 的主要优势在于其灵活性、可解释性、速度和解释力。具体来说,由于响应变量与自变量之间预期的线性关系,可以立即推断出改变变量值对预测的影响。此外,基础统计学使得能够计算预测值本身以及参数值的置信区间(例如,常以此标准决定是否在模型中包含某个自变量)。一种估计参数不确定性的关键方法是自助法(Bootstrapping)。自助法对给定数据进行有放回的重新抽样,以创建相同大小的新样本数据集。然后,使用样本重新估计参数,并通过为目标参数创建所需统计量(如均值、中位数、置信区间)的分布,与原始参数估计值进行比较。最后,由于只需要基础的线性代数,OLS 是确定性的且速度快。OLS 常作为其他方法必须与之比较的基线。
在生物学研究中的应用
我们概述了两篇明确使用 OLS 来解决 ML 与生物学交叉问题的近期论文。首先,Smith 等人使用多元线性回归,在贝叶斯框架下(例如,包括回归参数的先验分布)模拟了生态区之间相似性与其地理距离和环境条件预测的关系。生态区是土地或水域的大型连贯区域,通常根据物种组合、生态动力学或环境条件进行描述。在该论文中,Smith 等人使用对数转换的 Jaccard 相异指数来捕捉生态区之间的差异。该指数被特别用作所检验模型中的响应变量。Smith 等人检验了生态区之间的距离是否可由(1)非生物因素或(2)生物因素解释。对于非生物假设,自变量是区域之间的距离、其平均同质性得分以及环境变量的主成分。对于生物假设,自变量是区域之间的距离、其平均同质性得分以及陆地脊椎动物类群的摄食功能团或体型大小。分析还在不同模型中包含了预测变量的平方项,以考虑环境预测变量与生态区距离之间可能存在的非线性关系。分析使用 Python 中的“PyMC3”包进行。对基础 OLS 的修改包括分析的贝叶斯性质(尽管使用了无信息先验)。参数的显著性基于相关的 95% 可信区间是否包含 0 来定义,这在统计检验中是典型的。
第二篇回顾的 OLS 论文是 Tao 等人。在这项研究中,作者使用线性回归模型比较了使用简单或复杂的分子进化模型估算的分类群之间系统发育分歧时间的估计值。复杂模型以 GTR+Γ(广义时间可逆模型)为代表,考虑了可变的核苷酸替代速率。简单模型假设相等的替代速率和碱基频率。简单和复杂模型被用于估算植物和动物支系中的分歧时间。分析的明确焦点是节点年龄(即分支时间)。线性回归模型被用于评估复杂模型和简单模型在节点年龄估计值方面的一致性。时间估计值通过每个数据集中所有节点年龄的总和进行标准化。作者期望响应变量和预测变量之间存在线性模式且数据点分散度低,由接近 1 的斜率和高的 R2 值(例如,斜率 = 0.95, R2 = 0.99)表示,作为复杂模型与简单模型高度一致的标志。我们强调,虽然线性回归不是论文的主要焦点,但它被特别用于说明在系统基因组数据集的背景下,具有多个参数的复杂模型与计算强度较低的简单模型在分歧时间估计上的相似性。
支持向量机
概述
支持向量机(Support Vector Machines, SVMs)是一组监督学习方法,应用于图像分类、文本分类和各种生物信息学程序等领域。SVM 通常用于分类,但也可以适应回归任务。类似地,尽管 SVM 通常适用于监督学习,但 SVM 的变体也可以在无监督框架下使用(例如,单类 SVM)。在 20 世纪 80 年代之前,几乎所有的学习方法都学习线性决策面,并且理论统计研究中的样本量被假设为很大或无限大以简化数学分析。然而,经验数据集的大小通常是有限的,且特征之间的关系几乎从来都不是线性的。1995 年,Vladimir N. Vapnik 开发了一种新方法,并表明 SVM 在模式识别程序中能很好地处理非线性和高维数据集。基于相似性的概念,SVM 使用非线性“核”函数将数据转换到更高维度,通过寻找最优边界(即超平面)来实现线性分离,该超平面形成类别和支持向量(即最靠近决策面的数据点)之间的最佳分区(即决策边界),以最大化类别间的间隔。SVM 在定义相似性度量方面非常灵活,并且通常能很好地泛化到新数据。凭借全局优化和强适应性的优势,SVM 在蛋白质分类、计算机视觉等领域有广泛的应用。
SVM 主要侧重于确定能够基于最大间隔最优划分数据到特定类别的超平面。超平面的定义使得不同组别数据点(即支持向量)之间的最小距离被最大化。对于成对数据 (xi, yi),其中 xi ∈ Rn 是特征向量,yi ∈ {1, -1} 是类别标签,SVM 侧重于解决特定的优化问题。该优化问题受约束于 yi(w · xi + b) ≥ 1 - ξi(对于每个 i),其中 ξi ≥ 0 是松弛变量,允许对具有挑战性或噪声点进行错误分类。类似地,C 是一个正则化参数,用于控制实现高间隔和减少训练误差之间的权衡。然而,最小化过程本身通常需要迭代近似,因为非线性核通常排除了解析解的可能性。
核是 SVM 内在灵活性的来源。核允许输入空间中的操作等价于更高维特征空间中的操作。这些基于核的操作是隐式发生的,无需计算新空间中的坐标。例如,假设某个物种的两个种群栖息于不同的海拔,这是区分它们的关键特征。然而,数据集中并未包含海拔作为特征。在 SVM 下,对数据集中实际收集的特征(例如纬度和温度)使用某个核,可能会由于扩展的多元空间而间接包含海拔(作为代理变量)。
数学上,SVM 核函数是两个高维空间向量的点积。常用的核函数包括多项式核 k(xi, xj) = (γ xi · xj + r)d、径向基函数(Radial Basis Function, RBF)核 k(xi, xj) = exp(-γ ||xi - xj||2) 和 S 形核 k(xi, xj) = tanh(γ xi · xj + r),其中 γ、r 和 d 是根据数据集调整的参数。数学上,SVM 核函数通常涉及一个数据点与另一个数据点的点积,<>i, xj> = ∑k xik xjk,其中 k 索引向量中的某个特征(例如温度、纬度)。这些中间的点积然后可以输入到更一般的非线性函数中,例如线性核或 S 形核。核的具体选择超出本综述范围,并被视为更大模型学习过程的一部分。由于处理非线性的能力,SVM 在可以为不同类别的数据点绘制连续“边界”的领域表现出色。核的性质决定了该边界的形状能力(例如,线性核将具有自变量线性的边界)。
在拟合 SVM 时,从业者通常专注于调整三个关键参数以优化模型。首先,核类型的选择决定了输入数据的变换空间。每种核类型适用于不同类型的数据。例如,对于在输入空间中线性可分的数据,首选线性核。RBF 核可以处理更复杂的非线性关系。其次是调整正则化参数,特别是惩罚参数 C 和核特定参数 γ。这两个参数对于防止过拟合和确保模型良好泛化至关重要。C 控制着在训练数据上实现低误差与最小化模型复杂性以更好泛化之间的权衡。γ 参数定义了单个训练样本影响的范围:低 γ 值表示“远”,高 γ 值表示“近”。第三,定义间隔(即决策边界)的最优值至关重要。较大的间隔可以增加分类器的泛化能力。然而,如果间隔设置得过宽,可能会导致训练数据的错误分类,特别是在数据噪声大或分离不佳的情况下。
在生物学研究中的应用
我们选择了两个使用 SVM 的案例研究。一篇论文侧重于使用图像检测叶片疾病,第二篇侧重于基于病毒基因组推断宿主的分类学信息。首先,Das 等人实现了一个分类器,根据番茄叶片的照片来识别健康和不健康的植株。作者专注于开发能够帮助改善印度农业部门的分类器,最终提高农村人口的生活水平。在这项研究中,作者从一个包含健康和患病番茄叶片图像(n=14,000)的现有数据库中收集图像。他们进行了图像预处理和掩膜步骤,包括调整大小和转换为灰度以进行进一步的目标像素标记。颜色是基于掩膜图像从 RGB 通道中提取的。这些特征(例如 RGB 通道、纹理、轮廓)随后被用于训练和测试基于健康和患病类别的随机森林、逻辑回归和 SVM。模型的训练阶段使用了 60% 的图像。用于评估模型性能的测试集包含剩余的 40% 的观测数据。Das 等人发现 SVM 的准确率比随机森林和逻辑回归模型高出 25-30%。基于这些结果,Das 等人支持将 SVM 模型部署到早期疾病自动检测的实际应用中。
其次,Young 等人旨在增加对新描述病毒基因组宿主信息的了解。大多数新发现的病毒缺乏宿主物种的分类学信息。本研究的目标是识别病毒的基因组特征,这些特征可用于准确预测宿主的分类学信息。关键挑战在于以使得判别信息可用于 ML 程序的方式表示病毒基因组。在这项研究中,序列从 Virus-Host Database (VHDB) 和 RefSeq 中检索。基因组被概括为核苷酸序列、氨基酸序列、理化性质和预测的 PFam 结构域。从这些表示中,进行 k-mer 或结构域提取程序以获得特征矩阵。SVM 在 80% 的数据上训练,并在剩余的数据集上进行测试(在替代分析中为 75% 对 25%)。分析中使用平均核苷酸一致性过滤器和“留出”方法考虑了系统发育信息。SVM 使用线性核,性能评估不仅基于整体准确度,还使用接收者操作特征(Receiver Operating Characteristic, ROC)曲线(等同于精确率-召回率曲线以及其他同时考虑假阳性和假阴性错误的方法)。作者还结合了来自相同病毒基因组的不同类型的特征集,并评估了它们预测宿主信息的能力。基于他们的 SVM,Young 等人发现所有分析的特征集都能预测宿主分类学。然而,结合特征集有潜力进一步提高预测准确性。
随机森林
概述
随机森林(Random Forest, RF)是一种机器学习技术,因其多功能性和有效性而在研究人员和从业者中广受欢迎,特别是在预测任务中。该方法建立在决策树集成的基础上,除了预测和推断任务外,还能在分析过程中实现特征选择,并明确建模变量之间的相互作用。RF 属于集成学习家族,该框架结合多个个体模型以提高整体预测性能。“森林”中的“树”由决策树构成。决策树类似于流程图结构,其中每个内部节点代表基于特定特征的阈值或定义。分支代表决策规则,每个叶节点代表一个结果。决策树是简单且易于解释的模型,对于分类和回归程序非常有效。
至少有六个关键方面对于理解 RF 算法的结构、拟合和性能至关重要。首先,RF 采用一种称为袋装法(Bagging)的抽样技术。这种方法涉及在每个决策树上训练一个随机子集(有放回抽样,因此一个数据点在同一棵树中可能出现多次),通过引入树之间的多样性来减少过拟合。其次,RF 中的每个决策树是使用在每个节点随机选择的特征子集构建的。这种随机性确保树之间的相关性较低,从而产生更稳健的模型。第三,RF 的一个超参数是森林中树的数量。通常,增加树的数量会提高性能,同时增加计算成本。找到最优的树数量通常涉及交叉验证技术(即,在数据子集上尝试许多不同的值,同时在预留数据上评分)。第四,RF 提供了一种特征重要性的度量,表明每个特征在预测目标变量中的贡献。这些信息可用于特征选择和理解底层数据。第五,训练 RF 中的每个决策树是独立于其他树的,这使得它具有高度可并行化。许多 RF 的实现利用并行计算来加速训练过程,特别是在处理大型数据集时。第六,也是最后一点,RF 有几个超参数,例如每次分裂时考虑的特征数量、树的最大深度、每个叶节点的最小样本数等,以提供额外的灵活性。网格搜索或随机搜索技术可用于找到超参数的最佳组合。
这些关键方面都促进了 RF 持续的有效性和普及性。请注意,存在多种在结构上类似于随机森林的基于树的集成方法。例如,我们将在后面介绍梯度提升树。贝叶斯加性回归树(Bayesian Additive Regression Trees, BART)也是一种流行的树集成方法。然而,每种方法都有不同的训练过程。正如贝叶斯线性回归与 OLS 结构相同,树集成也可以有多种形式,具有不同的权衡。
在生物学研究中的应用
我们探讨了随机森林在两个案例研究中的使用。首先,Fabris 等人使用随机森林来识别离散和数量性状背后的基因座,特别是在研究野生或非模式生物时。RF 在生态学和群体遗传学中正变得越来越常用,因为与传统方法不同,它可以同时高效分析数千个基因座,并解释非线性相互作用。作者描述了如何准备 RF 的数据,包括初始数据探索、重要特征的识别以及可能的混杂因素。然后,他们提供了关于启动 RF 以及优化分类和回归算法参数的指导。最后,他们总结了解释 RF 结果和识别性状关联或预测基因座的方法。其次,Brieuc 等人侧重于研究 RF 如何有效地用于基因型-表型关联的研究,特别是在非模式生物中。这项研究结构上是 RF 与生态和进化基因组学交叉的入门指南,讨论了仔细拟合、分析、评估性能和理解 RF 方法结果的基本方法。
梯度提升
概述
梯度提升模型(Gradient Boosted Models, GBMs)可以通过扩展我们之前对随机森林的解释来理解。随机森林通过袋装法创建树的集成,而梯度提升则是一个接一个地开发集成模型的每个组成部分(即单个决策树)。这种迭代过程通常称为提升。具体来说,令 fm-1(xi) 为添加了 m-1 个组成部分后提升模型的预测。在这种提升下,我们寻求下一次迭代,fm(xi) = fm-1(xi) + Γm gm(xi)(即,已经通过 GBM 生成了两个连续模型,并试图通过向集成中添加第三个组成部分来改进它)。例如,可以固定 Γm = 1 并拟合 gm 以最小化残差损失 L(yi - fm-1(xi), gm(xi))。也就是说,每个新的组成部分试图纠正先前模型的错误。确定 gm 和 γ 的方式取决于提升的具体类型。提升的一个子类型称为梯度提升模型或 GBMs。该方法拟合 gm 以最小化负梯度上的损失,-?L(yi)/?fm-1。然后找到权重 Γm 以最小化总体损失 L(yi, fm-1(xi) + Γm gm(xi))。梯度有助于比通用提升更仔细地指导下一个模型。
GBM 的确切能力很大程度上取决于集成内底层模型的类型。例如,梯度提升树(Gradient Boosted Trees, GBTs)在结构上与随机森林相同,并且通常适用于类似的问题。然而,由于 GBM 使用梯度,它们可以利用连续损失函数来加速模型收敛。相反,具有不连续损失的问题可能不太适合 GBM。
在生物学研究中的应用
我们选择了两个总结梯度提升在生物学研究背景下使用的案例研究。首先,Zhang 等人通过序列衍生的特征构建了生物发光蛋白(Bioluminescent Proteins, BLPs)的预测模型用于识别。BLPs 在工业和研究中都具有重要价值。在这项研究中,作者使用了 XGBoost(eXtreme Gradient Boosting),一种基于梯度提升树的集成学习算法。XGBoost 以其高度灵活和可扩展的树结构增强模型以及减少训练大规模数据的计算时间和内存而闻名。所有这些特征都被专门用于改进先前用于 BLP 预测的方法和工具。首先,从 UniProt 收集了一个先前构建的包含 BLP 序列和非 BLP 序列的综合数据集,该数据集由细菌、真核生物和古菌组成,用作训练和预测数据。为避免同源性偏差,首先使用 BLASTClust 清理数据。通过各种方法(即自然向量、组成/转换/分布、g-gap
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号