基于生物感知机器学习的无血清培养基优化平台开发及其在CHO-K1细胞培养中的应用

【字体: 时间:2025年07月28日 来源:New Biotechnology 4.5

编辑推荐:

  针对细胞培养中培养基优化受生物波动和实验误差制约的难题,本研究开发了整合主动学习(active learning)和误差感知数据处理的机器学习(ML)平台。通过梯度提升决策树(GBDT)和集成模型(ensemble model),成功优化了含57种成分的无血清培养基,使CHO-K1细胞浓度较商业培养基提升60%。该研究为复杂生物系统的精准优化提供了新范式。

  

细胞培养技术是生物医药领域的基石,但培养基优化长期依赖经验试错。传统使用胎牛血清(FBS)存在批次差异大、伦理争议等问题,而无血清培养基开发又面临57种成分浓度组合爆炸的难题。更棘手的是,细胞-培养基互作的复杂性和实验误差导致机器学习(ML)在生物领域的应用效果受限。

日本筑波大学(University of Tsukuba)的研究团队在《New Biotechnology》发表研究,开发出融合实验设计与计算模型的创新平台。该平台通过预混鸡尾酒(cocktail)简化实验操作,采用误差感知数据处理和遗传算法(GA)避免局部优化,最终构建的集成模型使CHO-K1细胞密度达到商业培养基的1.6倍。这项突破为生物制药的工业化生产提供了标准化解决方案。

关键技术包括:1) 将57种成分按生化特性分为8组鸡尾酒;2) 引入实验误差特征和折叠变化(fold-change)归一化;3) 组合GBDT、支持向量回归(SVR)、k近邻(k-NN)和神经网络(NN)构建集成模型;4) 采用假数据(fake data)训练增强全局搜索能力;5) 7轮主动学习迭代优化。

【实验设计】通过预混氨基酸、维生素等8类鸡尾酒,使培养基制备效率提升3倍,且细胞浓度显著高于单独混合组(图1C)。这种分组策略意外发现化合物间的协同/拮抗效应,如核黄素与氨基酸的降解反应。

【数据处理】创新性地将商业和自制eRDF培养基的细胞浓度作为特征,使模型预测准确率提升89%(图2B)。SHAP分析证实这两个特征对预测影响最大,揭示了生物波动与实验误差的量化关系。

【模型构建】集成模型相比单一GBDT模型,对823,543种虚拟培养基的预测结果呈现连续分布(图3C),更利于区分细微差异。引入假数据训练后,培养基成分的PCA分析显示探索空间扩大2.3倍(图4E),有效避免算法陷入局部最优。

【培养基优化】经过7轮优化,第5轮培养基使CHO-K1细胞密度达3.4×106 cells/mL。关键变化是:必需氨基酸(Cocktail 1)减少90%,维生素(Cocktail 4)增加110%(图6B),这与后续代谢物检测显示的氧化应激降低相符。

【特异性验证】优化培养基对HeLa-S3细胞无效,对大肠杆菌(E. coli)甚至呈现抑制(图6D),证实其靶向性。这种"精准营养"特性有望减少抗生素使用,为解决细胞污染提供新思路。

该研究开创性地将计算生物学与实验生物学深度整合:在方法学层面,误差特征提取和假数据训练为生物ML树立了新标准;在应用层面,明确显示商业培养基存在巨大优化空间。值得注意的是,虽然5倍放大培养验证了效果,但作者指出工业级放大仍需考虑溶氧、pH等新变量,这为后续研究指明了方向。平台已开源代码,其模块化设计可扩展至干细胞培养、疫苗生产等领域,推动生物制造进入"可编程"时代。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号