SoluBat:一种双向Mamba框架,用于生物过程优化中的高通量蛋白质溶解度预测
《Process Biochemistry》:SoluBat: A Bidirectional Mamba Framework for High-Throughput Protein Solubility Prediction in Bioprocess Optimization
【字体:
大
中
小
】
时间:2025年12月13日
来源:Process Biochemistry 4
编辑推荐:
蛋白质溶解度预测模型SoluBat基于双向Mamba架构,整合序列、PSSM进化信息和物化性质,通过门控机制动态融合特征,显著提升预测精度(MCC达0.47)并降低计算资源消耗,为高通量蛋白设计提供高效可解释工具。
吴林杰|张晨|胡子健|王旭荣|刘洪荣|朱斌
中华人民共和国湘潭市湖南科技大学计算机科学与工程学院
摘要
蛋白质溶解度预测是蛋白质工程和生物制造中的关键步骤,直接影响湿实验室的预筛选成本和高通量研发的效率。为了解决现有方法在计算效率和模型可解释性方面的局限性,本研究提出了基于双向Mamba架构的多模态深度学习模型SoluBat。SoluBat整合了蛋白质序列、进化信息(PSSM)和理化性质,通过高效的门控机制动态融合这些特征,以实现性能和能耗之间的平衡。实验结果表明,与主流深度学习和传统方法相比,SoluBat在多个公共数据集上具有更高的准确性和Matthews相关系数,同时显著降低了计算资源消耗。此外,该模型还配备了内置的残基属性分析功能,支持合理的蛋白质设计。因此,SoluBat为高通量蛋白质溶解度预测和工业应用提供了一种高效且可解释的计算解决方案。
引言
蛋白质溶解度是决定生物功能以及治疗性抗体和工业酶等产品产量和活性的关键因素。在各种应用中,溶解度对产品产量、纯化效率以及最终产品的稳定性和生物活性有着重要影响。它受到外部物理条件(如pH值、温度)和内在因素(如氨基酸组成和结构)的复杂相互作用的控制[1]。专注于高溶解度和高表达潜力的候选物可以大幅减少湿实验室的资源和时间成本。虽然分光光度法[2]、凝胶电泳[3]和动态光散射[4]可以测量溶解度,但它们的高成本和低通量不适合当前的高通量需求[5]。因此,用于早期蛋白质设计中的高效计算模型具有重要的理论和实践价值。同时,高通量组学在数据整理、质量控制和注释方面也迅速发展——例如,基于纳米孔电流-信号的甲基化类型鉴定[6]、NGS辅助的第三代甲基化调用质量控制[7]、基因组岛识别方法的系统比较[8]及相关软件[9]、[10],以及特定结构域突变数据库的构建[11]。这些发展为基于序列的预测模型提供了更加一致的基准和工作流程支持。
早期的计算溶解度预测器依赖于理化指标或聚集倾向(如Aggrescan [12]、CamSol [13])。这些直观的方法易于解释,但无法捕捉复杂的序列背景和多因素效应。机器学习的应用,如结合工程特征的支持向量机和随机森林(如k-mer频率、理化性质),带来了显著改进,例如SOLpro [14]、PROSO [15]和PaRSnIP [16]等方法。进一步的研究[17]表明,仔细选择少数关键特征可以提高准确性,但手动特征工程难以捕捉长距离依赖性,从而限制了预测能力。
最近,基于Transformer架构的深度学习——特别是蛋白质语言模型(PLMs)[18](如ESM-1b [19]、ProtBERT [20])——在预测复杂蛋白质性质(包括溶解度)方面取得了巨大进展。这些模型通过自我监督预训练进行训练,能够自动捕捉长距离依赖性和语义信息,在各种蛋白质预测任务中取得了最先进的结果。
目前,对预训练模型进行监督微调已成为蛋白质溶解度预测的主流方法。最近基于PLM的研究,如NetSolP [21],通过对ESM-1b和ESM-12进行微调,在同源性分离的数据集上取得了更高的准确性[22]。PLM_Sol [23]比较了13个PLM(包括ProtT5和ESM-2),并使用MLP分类器在大肠杆菌数据集上报告了改进的ACC和MCC。PROTSOLM [24]进一步结合了AlphaFold [25]结构和全局理化特征与ProtT5,在PDBSol和独立测试集上取得了最佳结果。与这些通用预测器并行,还有一些专门针对突变后溶解度变化的工具也被开发出来,如PON-Sol2[26]。
然而,Transformer自注意力的二次复杂度O(L2)限制了它们在长序列上的效率。例如,ProtT5对于超过1024个残基的序列需要超过12 GB的GPU内存,这对于许多高通量场景来说是不切实际的。尽管像ESM-2这样的最新模型更高效,但大规模部署仍然受到资源成本的限制,尤其是在批量筛选长序列时。此外,大多数PLM使用原始序列作为输入,并没有明确结合结构化特征,如PSSM [27]或理化性质,这可能会限制在低同源性或跨物种背景下的泛化能力。
为了解决这些限制,基于状态空间模型的Mamba架构[28]引入了一种选择性扫描机制,将复杂度降低到接近线性的O(L)。初步结果显示,Mamba模型在计算效率和长距离建模方面优于Transformer,为高通量序列任务提供了有前景的选项。
基于此,我们提出了SoluBat——一个通过整合氨基酸序列、进化信息(PSSM)和全局理化性质来高效预测蛋白质溶解度的模型。SoluBat使用高效的双向Mamba(Bi-Mamba)编码器和门控机制来融合序列和PSSM特征,然后将组合的表示和理化特征输入分类头。初步实验表明,与基于Transformer的模型相比,SoluBat在性能和计算效率方面具有竞争力,为大规模、高通量蛋白质筛选和设计提供了有效的工具。
部分片段
标准溶解度预测数据集
为了全面和多方面评估模型性能,本研究使用了三个公开可用的数据集,每个数据集具有不同的特点:
(1)TargetTrack数据集:在大规模噪声环境下的鲁棒性 我们使用了Rawi等人[29]整理的TargetTrack数据集,其中包含69,420个蛋白质序列(28,972个可溶性和40,448个不可溶性)。该数据集评估了模型在包含潜在噪声的大规模真实世界数据场景中的泛化和鲁棒性
SoluBat在TargetTrack标准数据集上的性能评估
我们在TargetTrack数据集上对SoluBat进行了严格的训练/验证/测试分离和五次重复实验。表1显示,SoluBat在ACC、PRE、AUC和MCC方面超过了主流基线。MCC显著更高——0.47 ± 0.03 vs 0.35 ± 0.04(NetSolP)和0.29 ± 0.02(ProtT5-P),表明在复杂数据条件下具有更强的泛化能力。
消融研究
为了阐明不同特征类型——序列特征、进化特征(PSSM)和理化性质——对模型的贡献
结论
在这项研究中,我们提出了SoluBat,这是一个基于双向Mamba的轻量级框架,为高通量蛋白质溶解度预测提供了高效且资源友好的解决方案。SoluBat整合了氨基酸序列、PSSM进化信息和全局理化性质,使用门控融合机制在紧凑的模型中动态组合这些特征。凭借Bi-Mamba编码器的接近线性复杂度,SoluBat显著减少了GPU运行时间
CRediT作者贡献声明
吴林杰:撰写——原始草稿、方法论、概念化。朱斌:撰写——审阅与编辑、撰写——原始草稿。王旭荣:撰写——审阅与编辑、撰写——原始草稿。刘洪荣:撰写——审阅与编辑、撰写——原始草稿。张晨:方法论、研究。胡子健:软件。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢
作者感谢国家自然科学基金(项目编号32071209)和湖南科技大学的学生研究与创新计划(项目编号YZ2426)的财政支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号