一种识别生物制药制剂中活性聚山梨酯20降解水解酶的机器学习方法

《Journal of Pharmaceutical Sciences》:A machine learning approach to identify active polysorbate 20 degrading hydrolases in biopharmaceutical formulations

【字体: 时间:2026年06月09日 来源:Journal of Pharmaceutical Sciences 3.8

编辑推荐:

  聚山梨酯被宿主细胞来源的水解酶降解是生物制药制剂中的一个关键挑战,可导致脂肪酸释放、颗粒形成和产品稳定性降低。基于质谱的宿主细胞蛋白(HCP)分析广泛用于HCP鉴定,但在单克隆抗体过量存在的制剂中检测变得困难,此时水解酶即使以痕量水平具有酶活性也可能未被检测到

  
聚山梨酯被宿主细胞来源的水解酶降解是生物制药制剂中的一个关键挑战,可导致脂肪酸释放、颗粒形成和产品稳定性降低。基于质谱的宿主细胞蛋白(HCP)分析广泛用于HCP鉴定,但在单克隆抗体过量存在的制剂中检测变得困难,此时水解酶即使以痕量水平具有酶活性也可能未被检测到。本研究证明,单个中国仓鼠卵巢(CHO)来源的水解酶会产生独特的聚山梨酯降解指纹图谱,这些指纹可通过反相超高效液相色谱-质谱联用(RP-UPLC-MS)检测,并利用监督机器学习进行分类。模型在单时间点指纹图谱上进行训练,该指纹图谱包含约50次测量,涵盖五种水解酶(CES1F、CES2C、LPLA2、PPT1和PAF-AH)。评估的算法包括逻辑回归、随机森林、梯度提升、支持向量分类器、Ada Boost和人工神经网络。八个模型中有七个在测试集上达到100%准确率,证实酶特异性信息在单一测量中得以保留,且不受酶浓度或降解时间影响。利用独立制备的水解酶加标样品进行外部验证,确认了模型的稳健性。预测置信度在早期降解阶段较高,而在后期降解阶段降低,因为酶特异性降解指纹图谱变得更加相似。本研究提出了一种基于活性的分类框架,用于功能识别聚山梨酯降解水解酶。该方法通过识别在制剂条件下驱动聚山梨酯水解的酶,为下游监测和基于风险的缓解策略提供支持。
**论文解读文章**

研究背景:聚山梨酯(如聚山梨酯20,PS20)是生物制药单克隆抗体(mAb)制剂中广泛使用的非离子表面活性剂,其核心功能是防止蛋白质变性、聚集和颗粒形成。然而,聚山梨酯易受化学和酶促降解,尤其是来自宿主细胞蛋白(HCP)的水解酶水解,导致游离脂肪酸释放、可见及亚可见颗粒生成,严重威胁产品稳定性。在制剂中,mAb浓度极高(>100 g/L),导致基于质谱(MS)的HCP分析受信号抑制影响,难以检测痕量水解酶,而即使极低浓度的酶仍可能具有催化活性。此外,HCP的丰度与其功能活性之间缺乏相关性,因此仅依靠蛋白质组学无法准确识别真正导致降解的酶。为此,研究人员需要一种基于活性的分类方法,从单次测量中识别功能活跃的水解酶。

研究方法与结论:研究人员开发了一种结合反相超高效液相色谱-质谱联用(RP-UPLC-MS)指纹图谱与监督机器学习的活性分类框架。以PS20为底物,对五种CHO来源水解酶(CES1F、CES2C、LPLA2、PPT1和PAF-AH)在制剂条件下(10 mM组氨酸,pH 6,20 ng·mL-1酶浓度)进行长达50天的孵育,通过RP-UPLC-MS获取降解指纹,并利用生成模型提取23种PS物种的相对强度。数据集经归一化处理后将80%用于训练、20%用于测试,评估了逻辑回归(logReg)、随机森林(RFC)、梯度提升(GB)、支持向量分类器(SVC)、Ada Boost(AB)及三种人工神经网络(ANN)共八种模型。结果表明,除AdaBoost外所有模型在测试集上达到100%准确率,证明单时间点指纹图谱足以区分不同水解酶,且分类信息独立于酶浓度或降解时间。外部验证使用独立生产批次的PAF-AH加标样品(500 ng·mL-1),模型在早期降解步骤中正确识别酶类,但在后期因指纹趋同导致置信度下降,其中具有三层隐藏层的ANN-2和ANN-3表现优于其他算法。进一步将该方法应用于未知mAb制剂的降解样品,预测CES2C为最可能贡献降解的酶,CES1F次之。该研究发表于《Journal of Pharmaceutical Sciences》。

**主要关键技术方法**
本研究的主要关键技术方法包括:(1)**RP-UPLC-MS指纹图谱获取**:以PS20作为直接底物,在制剂相关条件下孵育CHO来源水解酶,通过反相超高效液相色谱-质谱联用分析降解产物,获取各时间点的PS物种强度谱。(2)**生成模型提取PS物种强度**:利用课题组前期开发的生成模型(Roelants et al., 2025)自动解析复杂色谱质谱信号,提取约35种PS亚种的相对丰度,经筛选后保留23种用于分类。(3)**监督机器学习分类**:使用scikit-learn和tensorflow框架,对归一化后的指纹数据训练八种分类模型(逻辑回归、随机森林、梯度提升、支持向量分类器、AdaBoost及三种人工神经网络),通过五折交叉验证进行超参数调优,并通过特征重要性分析确定关键PS物种。(4)**外部验证与未知样本应用**:采用独立制备的PAF-AH加标样品(不同生产批次)进行外部验证;同时,对一种含有未知HCP组成的mAb制剂(PS20浓度0.4 mg·mL-1,mAb浓度50 mg·mL-1)在不同存储条件下的降解指纹进行分析。所有水解酶均来自Boehringer Ingelheim内部CHO细胞表达纯化。

**研究结果**

**Overview of polysorbate hydrolase activity**:通过RP-UPLC-MS监测五种CHO来源水解酶在制剂条件下的降解活性,结果显示CES1F和LPLA2降解最快,PAF-AH最慢,PPT1居中。这些酶在20 ng·mL-1的低浓度下即可降解PS20,证明了其在产品稳定性中的潜在重要性。其他一些先前报道有活性的水解酶在相同条件下未观测到显著降解,因此未被纳入后续分析。

**Distinct fingerprint patterns across hydrolases**:利用成对图(pair plot)对比了五种水解酶的PS物种归一化强度模式。结果显示,CES1F和CES2C虽同属羧酸酯酶,但在S12与I08等物种组合上形成不重叠的簇;PAF-AH在S08与S12的散点图中形成独特簇;LPLA2呈现较宽或双峰分布;PPT1显著偏好三酯物种(如S12/12/14和S12/12/16),使其易于区分。这表明指纹图谱包含足够的辨别信息,为监督学习奠定了基础。

**Classification model performance**:八种分类模型(logReg、RFC、GB、SVC、ANN-1、ANN-2、ANN-3和AB)中,除AdaBoost(准确率0.92)外,其余七种在测试集上均达到100%准确率。混淆矩阵显示CES1F和CES2C等相似酶类亦无错分。这证实了单时间点归一化指纹即可准确预测水解酶类别,验证了降解模式本身蕴含区分性特征。

**Feature importance and contribution of PS species**:从随机森林模型提取特征重要性,发现单酯S08贡献最大,其次是三酯S12/12/14和S12/12/16,以及异山梨醇型物种I08。该结果与成对图观察一致,提示未来可基于少量物种构建分类模型以降低复杂度。

**External validation with spiked samples**:使用独立制备的PAF-AH加标样品(500 ng·mL-1)验证模型稳健性。在四个时间点的样品中,大多数模型早期预测置信度高(如logReg和GB在前两个时间点接近1.0),后期置信度下降,其中GB在最后一个时间点误判为PPT1。ANN-2和ANN-3在所有时间点保持高置信度,其深层结构有助于提取复杂模式。而浅层ANN-1和AdaBoost表现较差。这证实了模型在早期阶段可靠,但在降解后期指纹趋同时面临挑战。

**Prediction of unknown samples**:将模型应用于一种mAb制剂的四个时间点(2个月/25°C,4个月/25°C,15个月/5°C和25°C)的降解指纹。分类概率热图显示CES2C在各时间点平均概率最高(0.63–0.92),CES1F次之,而LPLA2、PPT1和PAF-AH概率极低。这表明CES2C是该制剂中聚山梨酯降解的主要贡献者,CES1F也可能参与。模型能够有效排除不相关的酶。

**讨论与结论**
总结讨论部分:研究人员指出,指纹分类方法可用于指导下游工艺开发,例如通过离子交换或疏水相互作用色谱优化纯化步骤以选择性去除高风险水解酶;也可辅助细胞系工程(如基因敲除)以及分析酶与抗体的共纯化(hitchhiking)现象。该方法的局限性在于当前模型仅基于单酶特征训练,而实际制剂中可能存在多种水解酶同时作用,导致后期降解模式重叠。在此场景下,多标签分类器(如ANN-3)优于互斥模型。未来可通过生成模拟混合指纹或集成学习(ensemble learning)增强模型稳健性,并可与HCP蛋白质组学联用提升识别准确性。

研究结论翻译:本研究建立了降解指纹图谱作为一种稳健且功能性的方法用于分类聚山梨酯降解水解酶。该方法可通过单个RP-UPLC-MS测量进行酶识别,且不受酶浓度或降解时间影响,证明降解模式本身含有足够的区分信息。不同模型类别的可比性能表明水解酶鉴定主要由降解指纹驱动而非算法选择。然而,在PS20降解增加的时间点(图6),ANN-2和ANN-3优于其他算法。在此背景下,非互斥模型(如ANN-3)在指纹特异性降低时具有特定优势。当前研究聚焦于五种高活性CHO水解酶,它们是制剂相关条件下聚山梨酯水解的主要贡献者。其他活性较低的酶在获得更多数据后可整合入框架。未来工作应将框架扩展至混合酶样品,生成计算机模拟混合指纹可提高重叠降解谱的模型鲁棒性。此外,通过元分类器组合多个基学习器的集成学习策略可进一步增强水解释酶识别的稳健性和置信度。将指纹分类与HCP蛋白质组学等正交分析方法结合可进一步强化复杂样品中的酶鉴定。总体而言,本研究方法为基于风险的聚山梨酯降解水解酶优先级排序提供了有价值工具。基于指纹的分类有助于识别在制剂条件下功能活跃的酶,从而指导治疗性制剂中聚山梨酯降解的靶向缓解。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号