
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SOuLMuSiC:基于人工智能的蛋白质溶解度突变预测新工具及其在疾病机制与药物设计中的应用
【字体: 大 中 小 】 时间:2025年07月30日 来源:Scientific Reports 3.8
编辑推荐:
比利时布鲁塞尔自由大学团队开发了SOuLMuSiC工具,通过整合统计势能、氨基酸特征和蛋白质语言模型(ESM-1v),解决了单点突变对蛋白质溶解度影响的预测难题。该工具在严格交叉验证中Spearman相关系数达0.7,显著优于现有方法,为阿尔茨海默病(Alzheimer)、糖尿病(IAPP)等蛋白聚集相关疾病的机制研究和抗体工程提供了新策略。
蛋白质溶解度问题长期困扰着生物医药领域——从抗体药物开发中的包涵体形成,到阿尔茨海默病(Alzheimer)中β淀粉样蛋白(Aβ)的异常聚集,再到白内障患者γ-晶状体蛋白的溶解度下降。尽管实验手段如融合标签、变性复性等被广泛使用,但这些方法耗时费力且效果有限。更棘手的是,溶解度受pH、温度等多因素影响,现有计算工具如CamSol、SODA等预测精度不足,Spearman相关系数普遍低于0.3。
比利时布鲁塞尔自由大学(Université Libre de Bruxelles)的Simone Attanasio团队在《Scientific Reports》发表研究,开发了革命性的SOuLMuSiC预测工具。该研究通过四大关键技术:1) 手工精选702个单点突变数据集(含225个定量数据);2) 整合四种统计势能(如距离势能ΔWSDS);3) 引入蛋白质语言模型ESM-1v捕捉进化信息;4) 开发基于溶剂可及性的神经网络模型,首次实现了突变溶解度影响的精准预测。
Dataset construction and curation
团队构建了迄今最全面的溶解度突变数据集DSol,通过文献挖掘和实验验证,将溶解度变化分为五类(--到++)。特别设计了反向突变数据集DInv验证模型抗对称性,相关系数保持0.49。
Features
创新性地组合了结构特征(如ΔΔGSTD)和序列特征(ΔHydrophobicity),其中ESM-1v的引入使模型具备零样本预测能力。统计势能通过玻尔兹曼公式计算,有效捕捉突变引起的能量扰动。
Prediction performances
在严格留一法验证中,SOuLMuSiC的Spearman相关系数达0.49(定性数据)和0.7(定量数据),远超PON-Sol2(0.29)。对淀粉样蛋白Aβ42的预测显示,采用原纤维结构(PDB 2NAO)时相关系数达0.57,证实β参数设置的科学性。
Application to LGK
在6,246个Levoglucosan激酶突变体测试中,SOuLMuSiC与酵母表面展示数据相关系数0.36。与稳定性预测工具PoPMuSiC联用后,相关系数提升至0.40,揭示溶解度与稳定性存在适度负相关(ρ=-0.31)。
这项研究突破了溶解度预测的瓶颈,其开源工具(http://babylone.ulb.ac.be/SOuLMuSiC/)可在一分钟内完成全蛋白扫描。不仅为理性设计可溶性抗体提供了新范式,更为理解Aβ42等致病蛋白的聚集机制开辟了新途径。未来通过整合环境参数(pH/温度)和扩大数据集,预测精度有望进一步提升。
生物通微信公众号
知名企业招聘