综述:适用于小规模数据和上游生物加工应用的机器学习方法:全面综述

《Biotechnology Advances》:Machine learning methods for small data and upstream bioprocessing applications: A comprehensive review

【字体: 时间:2025年11月21日 来源:Biotechnology Advances 12.5

编辑推荐:

  生物制药上游处理过程面临小数据挑战,本文提出涵盖数据收集、模型开发及持续监控的全流程分类方法,整合主动学习、数据增强、降维等技术在有限数据下提升ML模型性能,并验证其在过程优化、软传感器开发等场景的有效性。

  在生物制药领域,数据对于机器学习(ML)的应用至关重要。然而,获取大规模数据集往往成本高昂且耗时费力,特别是在复杂且资源密集型的领域。因此,解决小数据问题成为了该领域研究的重点。本文旨在探讨机器学习方法如何应对小数据挑战,并将其分类为一个系统化的分类体系,以指导实际应用。通过详细分析各类方法的核心概念和其在小数据挑战中的有效性,我们希望为生物制药行业及其他相关领域提供实用的解决方案。本文还总结了当前研究的不足之处,并提出了进一步研究的方向。

### 一、小数据问题的背景

机器学习在多个领域得到了广泛应用,因为它可以从数据中学习并做出准确的预测或决策。然而,随着数据量的增加,机器学习模型的性能通常也会提高,从而带来更精确和可靠的成果。相反,当可用数据量减少时,模型的准确性和可靠性会下降,尤其是在数据量低于一定阈值时,使用现成的机器学习方法可能难以构建可靠和准确的模型。那么,什么可以被定义为“小数据”?Vapnik在1998年提出一个经验法则,即如果数据量与Vapnik-Chervonenkis(VC)维度的比值小于20,那么该数据集可以被视为小数据。Alwosheel等人在2018年讨论了其他定义小数据的方式,例如对于每个预测类别,至少需要50到1000个数据点,或者对于神经网络中的每个权重,至少需要10个数据点。最近,DeepMind在2022年发表的研究表明,对于大型语言模型(LLM),每个模型参数需要大约20个数据点(文本标记)才能达到最优训练效果,这一比例与Vapnik的规则相似。因此,即使在许多拥有数十亿参数的LLM中,数十亿个文本标记仍然被认为是小数据。例如,尽管GPT-3是在3000亿个文本标记上进行训练的,但考虑到其拥有1750亿个参数,要实现最优训练,可能需要约3.5万亿个标记。

尽管存在这些指导原则,但在实际应用中,判断一个数据集是否属于小数据仍然具有挑战性。然而,这些研究提供了重要的见解,帮助我们理解如何定义小数据。首先,一个数据集是否被认为是小数据,取决于其背后的机器学习模型的参数复杂性。选择一个与可用训练数据相匹配的模型参数复杂度是构建机器学习模型的关键,否则最终模型的性能可能会受到影响。其次,一个数据集是否被认为是小数据,还应考虑到其背后的机器学习任务的复杂性。数以十亿计的数据点可能对许多常见的机器学习任务来说很多,但对训练具有数学推理能力的大型语言模型来说,却可能是不够的。因此,我们不提供一个硬性阈值来区分小数据与非小数据,而是将其定义为:“在机器学习任务中,小数据指的是一个数据点数量少于完成该任务所需的数据点数量的数据集。”虽然“典型”这一术语可能显得主观,但该定义具有足够的灵活性和稳健性,可以作为识别小数据限制的指导原则,从而应用适当的机器学习方法来应对这些挑战。

### 二、小数据问题在上游生物加工中的表现

上游生物加工涵盖了生物制药生产中的初始阶段,主要关注细胞或微生物的培养和优化,以生产所需的蛋白质或生物制剂。这包括关键步骤,如细胞系选择、培养基优化、细胞在生物反应器中的培养以及收获(Khuat等人,2024)。这一复杂过程涉及各种受控变量,包括温度、pH值和营养水平,以最大化产品产量和质量(Rosa等人,2010)。过程分析技术(PAT)如拉曼光谱、中红外(MIR)、近红外(NIR)和荧光光谱等,是实时监控和控制这些关键过程参数的重要工具,为优化提供了有价值的见解(Streefland等人,2013)。

然而,拉曼光谱等PAT技术的全部潜力往往受到上游生物加工中有限数据的限制。每次生物反应器运行所需的高度成本和时间投入限制了可以生成的数据量(Sun和Ge,2022;Sibley等人,2020)。虽然PAT提供了有价值的实时测量,但总体数据集的大小,尤其是用于基准的离线分析测量,与数据密集型机器学习算法的需求相比仍然相对较小(Helleckes等人,2023;Duong-Trung等人,2023)。这种数据稀缺限制了准确预测模型的开发,并阻碍了基于PAT数据的控制策略优化。生物系统的复杂性进一步加剧了这一挑战,使得即使通过PAT提供的见解,也难以从有限的数据中进行泛化。这凸显了开发和利用专门设计用于从有限数据中学习的机器学习方法的重要性,从而在资源受限的环境中实现更稳健和可靠的PAT应用。

### 三、现有文献的综述

在应对小数据问题的机器学习方法研究方面,已有大量综述和调查文章。Cao等人(2022)讨论了各种小数据学习方法,如主动学习和少样本学习,强调了它们在泛化性能上的理论保证。作者引入了PAC(Probably Approximately Correct)框架,用于分析小数据学习,重点关注标签复杂性和泛化误差界限。其关键贡献在于探索了几何表示视角,将小数据学习模型分为欧几里得和非欧几里得(超球面)表示。该综述还强调了小数据学习对多个AI领域的影响,如迁移学习、对比学习和元学习,并识别了如弱监督和分布不平衡等挑战。

Shu等人(2018)提出了一个关于小样本学习(SSL)或少样本/样本学习(FSL)的全面综述。作者将SSL技术分为两个主要方法:概念学习,它通过利用先验知识(如识别、生成和想象)从有限的观察中形成新的概念;经验学习,它与大规模样本学习协同工作,以优化在训练数据稀缺时的性能。该论文探讨了神经科学证据支持SSL,突出了其与人类认知的相似性,如情景记忆、想象和组合性。它还讨论了各种SSL方法,包括元学习、迁移学习、数据增强和生成模型,并识别了关键挑战和未来研究方向。

Lu等人(2023)提供了一个关于FSL的全面综述,涵盖了从2000年到2019年的300多篇FSL相关论文,将FSL方法分为生成模型和判别模型方法。该论文的重点是元学习,这已成为FSL的主要范式,策略包括Learn-to-Measure、Learn-to-Finetune、Learn-to-Parameterise、Learn-to-Adjust和Learn-to-Remember。综述还涵盖了FSL的新兴扩展,包括半监督、无监督、跨域、泛化和多模态FSL。此外,该论文还讨论了FSL在多个领域中的应用,如计算机视觉、自然语言处理、音频处理、强化学习和机器人学,讨论了基准性能和未来研究方向。

Raschka(2018)讨论了在有限数据场景下进行模型评估和选择的技术,这对于使用小数据集进行研究尤为重要。它涵盖了诸如交叉验证变体和自助法等方法,为在数据有限时选择合适的模型和算法提供了实用指导。

### 四、小数据问题在上游生物加工中的具体挑战

在上游生物加工中,小数据问题主要源于以下几个方面:首先,数据采集的局限性。由于每个生物反应器运行的成本和时间投入较大,因此生成的数据量受到限制。其次,生物加工过程中数据的高维度性。现代生物加工利用大量的在线传感器和PAT技术,生成了极高维度的数据,这使得模型训练变得更加困难,并增加了过拟合的风险。第三,数据的可迁移性受限。不同的生物反应器运行可能涉及不同的细胞系、培养基组成、工艺持续时间和其他元特征,这些特征显著改变了数据特性。因此,使用历史运行数据训练的模型在面对未见过的元特征时,可能会遇到冷启动问题,这进一步凸显了数据可迁移性受限的问题。

### 五、提出的机器学习方法分类体系

为了更好地理解和应对小数据问题,我们提出了一种分类体系,该体系基于典型的机器学习工作流程的三个主要步骤:数据收集与工程、模型开发以及持续监控与维护。这种分类体系强调了技术在机器学习过程中的集成和交互,使从业者能够系统地应对小数据限制在不同工作流程阶段的挑战。例如,一个从业者可以将主动学习(AL)应用于数据收集阶段,将迁移学习(TL)应用于模型训练阶段,将集成学习应用于模型更新阶段,从而实现稳健的结果。

在数据收集和工程阶段,重点在于优化输入数据以提高模型从有限样本中学习的能力。其中包括主动学习(AL),它通过选择最有信息量的样本,减少标注工作量,同时最大化信息获取。另一个关键方法是数据增强(DA),它通过生成合理的变体(如合成数据生成和数据变换)来扩展训练数据集,从而增强模型的泛化能力。此外,降维(DR)方法通过减少输入特征空间,确保只有最相关的特征用于训练,帮助防止小数据场景下的过拟合。

在模型训练阶段,我们的关注点是开发策略,以在有限数据下训练有效的模型。例如,半监督学习(SSL)通过利用可用的无标签数据来应对小数据挑战。此外,贝叶斯方法和数据-知识驱动的混合建模(DKH)通过结合先验知识和数据驱动技术来解决这一问题。贝叶斯方法通过概率框架,特别是在小数据设置下,利用先验分布来增强学习。而数据-知识驱动的混合建模通过结合先验知识和数据驱动方法,提高模型的可靠性。

在持续监控与维护阶段,我们关注的方法包括模型再训练和适应,以确保模型在数据受限的情况下保持性能。例如,滑动窗口(Moving Window)方法通过使用滑动窗口内的最新数据来重新训练模型,使模型能够适应不断变化的模式,同时保持时间相关性。在线学习(OL)通过处理数据流,实时更新模型,使其适用于动态环境。此外,集成学习(Ensemble Learning)或专家混合(Mixture of Experts)方法通过结合多个模型来减少方差和偏差,从而在变化的条件下实现更稳健的预测。最后,即需学习(Just-In-Time Learning)通过动态选择最相关的数据子集进行训练,确保高度适应的、实例特定的输出。

### 六、机器学习方法在数据收集与工程阶段的应用

在数据收集与工程阶段,主动学习(AL)是一种重要的方法,它通过选择最有信息量的样本,减少标注工作量,同时最大化信息获取。在生物制药领域,AL被广泛应用于加速实验设计循环(DBTL),特别是在小数据场景中,实验成本、资源限制和生物变异性的约束使得大规模数据收集变得困难。例如,Mart?nez等人(2011)应用贝叶斯AL来优化青霉素G的生产,仅需三次喂养批次即可达到近优的工艺参数,比探索性试验提高了300%。这表明AL在小数据环境中具有优势,传统方法通常需要显著更多的实验才能收敛到最优解。同样,在细胞自由蛋白合成中,Borkowski等人(2020)通过识别20种关键缓冲液配方,其AL驱动的方法提高了蛋白生产34倍,展示了AL在有限实验数据下高效探索高维设计空间的能力。

在生物加工领域,AL与自动化实验的结合进一步缓解了小数据约束,通过最大化每次实验的信息增益并减少对人工干预的依赖。例如,King等人(2004)提出了一种“机器人科学家”方法,利用AL动态选择最有信息量的生物实验,将成本降低了三倍,与被动学习相比降低了100倍。这种选择最有价值数据的能力在生物加工中尤为重要,因为生成标注数据(如发酵试验或细胞培养实验)的成本较高。此外,在lycopene生物合成优化中,Hamedi Rad等人(2019)使用了BioAutomata,这是一个完全自动化的AL驱动的DBTL系统,通过测试不到1%的可能设计,实现了1.77倍的产量提升,展示了AL在复杂生物环境中高效导航的能力。

### 七、数据增强在上游生物加工中的应用

数据增强(DA)是增加训练数据集的多样性与规模的一种方法,这在数据稀缺的情况下对构建有效的机器学习模型至关重要。DA技术可以分为数据变换和数据合成。数据变换通过应用变换操作来生成新的数据实例,而数据合成则通过混合现有数据实例或采样学习到的数据分布来生成新的数据实例。

在生物加工领域,数据增强技术已被广泛应用于解决有限实验数据带来的挑战。例如,Bernard等人(2006)和Rodr'?guez等人(2008)利用厌氧消化模型1(ADM1)生成合成数据,用于基于主成分分析(PCA)的降维分析。他们的研究结果表明,减少的生物量和反应数仍能捕捉到关键的系统动态,这展示了合成数据在模型简化中的潜力。此外,Abaineh等人(2007)利用Sonnleitner-Kappeli模型生成合成数据,随后用于训练自组织映射(SOM)以聚类代谢状态并形成多局部线性模型(MLLM)框架,用于喂养批次酵母发酵。在微生物工厂评估中,Oyetunde等人(2019)使用基因组尺度代谢模型(iML1515)来模拟代谢通量在生物加工约束下的行为,从而增强机器学习模型的训练数据集。此外,Botton等人(2022)利用机制性数字孪生来模拟喂养批次单克隆抗体(mAb)生产,即使在有限的实验数据集中,也能实现增强的工艺优化。

### 八、降维在小数据生物加工中的应用

降维(DR)是一种减少数据集特征数量的方法,同时保留对下游任务至关重要的信息。这对于处理高维特征空间的小数据集尤为重要,因为这可能导致过拟合和泛化能力差。通过降维,可以缓解这些挑战,提高模型稳定性,减少计算成本,并增强学习效率。降维的主要方法包括特征选择和特征提取。

特征提取方法通过将原始特征集转换为一组新的特征,保留原始数据的大部分变异,从而减少数据维度。这种方法在小数据环境中特别有用,因为它将信息压缩到一个低维空间,使模型能够从有限数据中更有效地学习。然而,特征提取方法通常只保留特征的某些结构,这意味着存在信息损失。因此,根据实现细节,特征选择方法可能保留更多的信息。

特征选择方法通过选择数据集中的特征子集进行训练,以优化机器学习模型的性能。对于小数据集,消除冗余或不相关的特征有助于模型专注于最有意义的数据点,从而提高泛化能力和减少过拟合的风险。特征选择方法包括过滤方法、包装方法和嵌入方法。过滤方法通过统计测量为每个特征分配一个分数,表示该特征的重要性,并决定是否保留或删除该特征。包装方法通过准备、评估和比较不同特征组合来选择最佳特征集,而嵌入方法则在模型训练过程中学习哪些特征最有助于提高模型的准确性。

在生物加工中,特征提取方法比特征选择方法更为常见。例如,PCA及其扩展(如多维PCA(MPCA)、主成分回归(PCR)和偏最小二乘(PLS))是最广泛使用的特征提取方法。研究显示,这些方法可以显著提高发酵和糖基化过程数据的降维效果,从而改善故障检测、工艺监控和预测。此外,NMF和MCR-ALS也被用于从有限的生物加工数据中提取有意义的特征。例如,Vier等人(2017)应用了MCR-ALS与碳平衡约束,用于喂养批次FTIR光谱,以解析底物和代谢物的特征。Grassi等人(2014)使用MCR-ALS来模拟乳酸发酵中的牛奶光谱,从而提高量化和可解释性。

### 九、机器学习方法在模型开发阶段的应用

在模型开发阶段,收集、增强和特征工程后的数据集将用于训练、优化和评估候选模型。候选模型池可以基于经验、工业实践或基准结果任意构建。它也可以作为完全自动机器学习(AutoML)执行的一部分,随着AutoML的普及,这种方法越来越受到关注。该阶段的方法包括半监督学习(SSL)、贝叶斯方法和数据-知识驱动的混合建模(DKH)等。

半监督学习(SSL)通过利用无标签数据来应对小数据挑战,特别是在标签数据稀缺或昂贵时,无标签数据丰富的情况下。SSL方法通常分为四种主要分支:包装方法、无监督预处理、内生半监督方法和基于图的方法。这些方法在处理小数据时具有显著优势,因为它们能够利用无标签数据提高模型的泛化能力。

贝叶斯方法基于贝叶斯定理,允许我们将对不确定事件或参数的先验信念整合到机器学习模型中,这些信念可以作为先验知识,指导模型的学习过程。贝叶斯方法通常包括贝叶斯建模、贝叶斯优化、贝叶斯推断和贝叶斯决策理论。这些方法在数据稀缺的情况下特别有用,因为它们能够明确地整合先验知识和对数据的不确定性,从而提高模型的预测能力和决策质量。

数据-知识驱动的混合建模(DKH)是一种结合数据驱动建模和知识驱动建模的方法,旨在利用两者的优势,提高整体预测准确性、模型可解释性和泛化能力。知识驱动模型(KDM)通常基于第一原理或机制模型,旨在描述系统的底层机制。而数据驱动模型(DDM)则通过机器学习方法训练,使用大量数据进行学习。在生物加工中,DKH建模已被广泛应用,特别是在处理复杂或未知的系统关系时。

### 十、迁移学习与元学习在模型开发阶段的应用

迁移学习(TL)和元学习(Meta-L)旨在将知识从源任务转移到目标任务,其中源任务拥有大量数据,而目标任务可能数据较少。这些方法通过利用源任务的学习成果来提高目标任务的学习效率和性能。TL通常关注数据实例的转移,如对预训练神经网络进行微调以快速适应新任务。而Meta-L则关注模型如何从其他相关任务的学习经验中学习如何学习,从而在新任务中实现快速适应。

迁移学习方法包括实例转移、特征表示转移、参数转移和关系知识转移。这些方法在生物加工中已取得显著成果,例如在细胞系和工艺条件泛化、批次到批次工艺优化、菌株特异性知识转移和软传感器再校准等领域。此外,元学习方法在生物加工中也显示出潜力,特别是在需要快速适应新任务的情况下。例如,Hutter等人(2021)开发了一种结合实体嵌入向量的混合GP模型,实现了跨细胞系和工艺条件的知识转移。这种方法在处理新工艺条件时特别有用,因为它可以减少所需的湿实验次数,从而加速工艺开发和扩大生产。

### 十一、持续监控与维护阶段的机器学习方法

持续监控与维护是机器学习操作(MLOps)生命周期中的重要步骤。随着数据和环境的变化,机器学习模型的性能可能会下降。因此,持续监控可以及时发现模型性能的下降,从而采取必要的维护措施以提高模型性能。通常,有两种方法可以提高模型性能:模型再训练和模型适应。模型再训练涉及从头开始训练模型,而不是改进现有模型的结构和参数。而模型适应方法则利用预训练模型,并通过学习新数据来调整其结构或参数。

在生物加工中,模型再训练和适应尤为重要,因为数据的可迁移性受限。例如,滑动窗口再训练方法通过使用滑动窗口内的最新数据重新训练模型,使其能够适应不断变化的模式,同时保持时间相关性。在线学习(OL)则通过处理数据流,实时更新模型,使其适用于动态环境。此外,集成学习(Ensemble Learning)通过结合多个模型来减少方差和偏差,从而在变化的条件下实现更稳健的预测。

### 十二、结论与未来研究方向

本文综述了机器学习方法在应对小数据挑战中的应用,并提出了一个基于典型机器学习工作流程步骤的分类体系。该分类体系可以帮助设计针对小数据问题的机器学习模型开发过程,特别是在需要应用多种方法或按顺序应用方法的场景中。采用这些方法可以显著提高从有限数据中获取有价值见解的能力,并帮助构建稳健且准确的机器学习模型,从而优化生物加工过程中的各个组件,提高最终产品的质量和生产效率。

尽管机器学习方法在小数据场景下取得了显著进展,但在实现监管认可和行业广泛应用方面仍面临挑战。模型的可解释性、可重复性和不确定性量化必须优先考虑,以获得生物加工工程师和监管机构的信任。可解释AI技术与贝叶斯不确定性估计的结合,可以为模型决策提供置信区间和解释。因此,尽管机器学习方法在生物加工中具有变革性作用,但它们的成功依赖于与领域知识、模型再训练和适应策略以及可解释性的结合。未来的研究应进一步探索这些方法,并将其应用于解决生物加工中的实际问题。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号