基于序列与结构模型的抗体可开发性预测:加速抗体开发的SEC色谱筛选新策略

【字体: 时间:2025年09月27日 来源:mAbs 7.3

编辑推荐:

  本综述系统探讨了利用机器学习模型预测抗体可开发性(developability)特性的创新方法。研究比较了基于序列(蛋白质语言模型PLM)和结构(图神经网络GNN)的预测策略,通过尺寸排阻色谱(SEC)实验数据验证了模型在预测单体含量和保留时间差(ΔRT)方面的效能。结果表明,PLM模型在保持高吞吐量的同时实现了最佳预测性能,为抗体早期筛选提供了高效计算工具。

  
引言
单克隆抗体(mAbs)因其高特异性、多功能性和治疗效能已成为现代生物医药领域的重要治疗手段。目前已有超过145种抗体药物获得FDA批准,其应用范围涵盖肿瘤学、自身免疫性疾病、传染病等多个领域。抗体的可开发性(developability)特性——包括溶解度、稳定性、聚集倾向和可生产性等——直接影响其从早期发现向大规模生产的转化成功率。传统的实验筛选方法如尺寸排阻色谱(SEC)虽然可靠,但存在耗时耗力、资源密集等局限性。
研究方法
本研究采用约1200个免疫球蛋白G(IgG1)分子数据集,重点分析SEC测定的两个关键属性:单体含量百分比和相对于参考抗体NIP228的保留时间差(ΔRT)。通过四种预测管道进行系统比较:
  1. 1.
    序列和结构特征管道:利用Schr?dinger软件从预测结构中提取分子特征,结合Extra Trees分类器进行预测
  2. 2.
    蛋白质语言模型(PLM)管道:基于ESM-2等预训练模型获取序列嵌入,通过多层感知机(MLP)进行分类
  3. 3.
    图神经网络(GNN)管道:从预测结构中构建氨基酸残基图,采用GVP、GAT或GIN等图神经网络架构
  4. 4.
    PLM+GNN联合管道:将PLM生成的残基嵌入作为GNN的节点属性进行端到端联合训练
研究团队还评估了两种蛋白质结构预测工具(AlphaFold2和ImmuneBuilder)对预测性能的影响,并采用10折交叉验证和独立测试集评估模型性能。
结果与讨论
在SEC单体含量预测方面,序列和结构特征管道实现了最高准确率(0.79±0.03),但灵敏度较低(0.56±0.07),表明其识别问题分子的能力有限。PLM管道在保持较高准确率(0.77±0.03)的同时,获得了最佳的F1分数(0.68±0.05)和灵敏度(0.65±0.08),成为高通量筛选的最优选择。
对于SEC ΔRT预测,GNN管道表现出最高准确率(0.77±0.04)和较好的灵敏度(0.64±0.10),但性能波动较大。PLM+GNN管道在使用ImmuneBuilder结构预测时表现出更稳定的性能(灵敏度0.62±0.04),为ΔRT预测提供了可靠的高通量解决方案。
结构预测工具的比较研究表明,尽管AlphaFold2在结构预测精度上具有优势,但ImmuneBuilder作为更快速的预测工具,在PLM+GNN管道中实现了相当的性能,为大规模筛选提供了实用选择。
结论
本研究系统评估了四种计算策略在预测抗体SEC可开发性特性方面的效能。蛋白质语言模型(PLM)在单体含量预测方面表现出色,为早期抗体筛选提供了高效可靠的计算工具。对于ΔRT预测,结合快速结构预测工具(ImmuneBuilder)的PLM+GNN管道展现了最佳实践价值。这些计算模型显著降低了实验筛选的成本和时间,为抗体药物开发提供了有力的in silico支持。未来研究可进一步探索这些模型在低数据场景下的迁移学习能力,以及新型结构感知蛋白质语言模型在可开发性预测中的应用潜力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号