编辑推荐:
为解决现有蛋白熔解温度(Tm)预测方法基于冗余数据、无法设计目标 Tm 蛋白的问题,研究人员开展耐热蛋白 Tm 预测与设计研究。利用 17,312 个非冗余蛋白构建模型,结合大语言模型(LLM)嵌入,最佳模型 PCC 达 0.89,开发工具 PPTstab,为蛋白稳定性研究提供新工具。
在生命科学领域,蛋白质的热稳定性是影响其功能的关键因素,熔解温度(Tm)作为衡量蛋白质热稳定性的重要指标,是指 50% 蛋白质失去天然结构和活性时的温度。然而,传统的 Tm 预测方法存在两大瓶颈:一是常基于冗余蛋白质数据训练,导致模型泛化能力不足;二是无法满足科研人员设计具有特定 Tm 值蛋白质的需求。随着生物技术和医学研究的深入,开发精准且能支持定制化设计的 Tm 预测方法成为亟待解决的问题。
为突破上述困境,印度信息技术学院(Indraprastha Institute of Information Technology)的研究人员开展了一项针对耐热蛋白 Tm 预测与设计的研究。该团队通过整合机器学习算法与大语言模型(LLM),开发出高效的预测模型,并创建了用户友好的工具 PPTstab,相关成果发表在《Scientific Reports》。这项研究不仅提升了 Tm 预测的准确性,还为蛋白质工程和药物开发提供了新的技术路径。
研究人员主要采用以下关键技术方法:首先,从 DeepSTABp 数据库获取 35,114 条蛋白序列,利用 CD-hit 算法以 40% 序列相似性阈值筛选出 17,312 条非冗余蛋白序列,构建高质量数据集,其中 80% 用于训练和测试,20% 用于验证。其次,结合传统蛋白质特征(如香农熵、氨基酸组成)和大语言模型嵌入(如 ProtBert、ProtGPT2、ProtT5),通过人工神经网络(ANN)、多层感知机(MLP)、支持向量回归(SVR)等机器学习算法构建预测模型。最后,开发集成标准特征与嵌入的混合模型,并搭建网页服务器和独立软件实现工具落地。
数据与模型性能分析
通过对数据集的组成分析发现,耐热蛋白(Tm>50°C)中亮氨酸(L)、丙氨酸(A)、甘氨酸(G)和谷氨酸(E)含量较高,而丝氨酸(S)、赖氨酸(K)等更多存在于 Tm<50°C 的蛋白中。基于香农熵(SER)等传统特征的模型在验证集上实现了 0.80 的皮尔逊相关系数(PCC)和 0.63 的决定系数(R2)。
大语言模型嵌入的突破
利用 ProtBert 等蛋白语言模型(PLM)生成的嵌入特征显著提升了预测性能。其中,基于 ProtBert 嵌入的模型在验证集上达到 PCC 0.89、R2 0.80 的最优结果,均方根误差(RMSE)为 4.11,平均绝对误差(MAE)为 3.00,表明 LLM 能有效捕捉蛋白质序列的深层特征。
混合模型与工具开发
尽管尝试结合传统特征与 LLM 嵌入构建混合模型,但性能未超越单独使用 ProtBert 嵌入的模型。研究团队开发的 PPTstab 工具包含 “预测” 和 “设计” 模块,前者可大规模预测蛋白 Tm,后者通过单点突变生成变体并筛选目标 Tm 的最优突变体,同时提供理化性质分析。该工具支持基因组水平的耐热蛋白筛选,并在嗜冷菌、中温菌和嗜热菌的蛋白组分析中验证了有效性。
结论与意义
本研究通过非冗余数据集和跨学科方法,显著提升了蛋白质 Tm 预测的准确性,突破了传统方法依赖冗余数据和缺乏设计功能的局限。开发的 PPTstab 工具为科研人员提供了从预测到定制化设计的一站式平台,在酶优化、药物递送系统开发及极端环境微生物研究中具有广泛应用前景。尽管研究主要针对耐热蛋白优化,但其方法框架为整合新兴 AI 技术与生物数据建模提供了范例,有望推动蛋白质组学和精准医学的发展。研究结果表明,大语言模型在生物序列分析中的深度应用能有效挖掘复杂特征,为解决生命科学中的关键问题开辟了新方向。