
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于递归树深度学习的多突变蛋白高阶变体功能效应预测模型MMRT研究
【字体: 大 中 小 】 时间:2025年05月07日 来源:Computational and Structural Biotechnology Journal 4.5
编辑推荐:
本研究针对高阶蛋白变体功能效应预测难题,开发了整合低阶变体信息的递归树深度学习模型MMRT。通过分析685,593个高阶变体数据,模型平均Spearman相关系数达0.55,显著优于ESM、DeepSequence和ECNet等现有方法,为复杂疾病机制解析和蛋白质工程提供了创新工具。
在生命科学领域,蛋白质序列变异对其功能和稳定性的影响一直是研究热点。随着高通量实验技术的发展,单突变、双突变和三突变等低阶变体已得到广泛研究,但涉及三个以上位点同时突变的高阶变体研究却进展缓慢。这主要因为高阶变体组合数量呈指数级增长,实验方法难以全面覆盖。然而,高阶变体在病毒进化(如SARS-CoV-2刺突蛋白变异)、癌症发生和蛋白质工程中扮演关键角色,亟需开发高效预测方法。
针对这一挑战,研究人员开发了名为多突变递归树(MultiMut Recursive Tree, MMRT)的新型深度学习模型。该研究发表在《Computational and Structural Biotechnology Journal》上,通过整合进化尺度建模(ESM)生成的蛋白质表示向量和递归神经网络架构,创新性地利用低阶变体信息预测高阶变体功能效应。
关键技术方法包括:1)使用ESM_r(esm1v_t33_650M_UR90S_1)生成1280维蛋白质位点特征向量;2)构建递归树结构逐步整合多突变位点信息;3)采用窗口扩展策略(MMRT-WIN)增强上下文特征捕捉;4)基于11个蛋白质的685,593个变体数据集进行模型训练和验证。
研究结果部分显示:
3.1 盲测模型性能
MMRT-TR23-WIN模型在30个数据集中21个优于ESM2,平均Spearman相关系数提升0.27。对HIS7(4)变体的预测相关系数达0.62,显著高于ESM1(0.31)和ESM2(0.34)。
3.2 不同MMRT模型比较
训练包含三重变体的模型(MMRT-TR123-WIN)性能最优,证实三重变体对捕捉上位效应至关重要。单突变训练模型预测能力有限,如ECNet-TR1对HIS7(10+)变体预测相关系数仅0.1。
3.3 小样本微调模型
使用10%高阶变体微调的MMRT模型性能显著提升,如PHOT(6)变体预测相关系数达0.94,较基础模型提高0.32。
讨论部分指出,MMRT的创新性在于:1)首次实现从低阶到高阶变体的功能效应外推;2)递归树结构有效捕捉多突变协同效应;3)窗口策略增强局部环境特征提取。该模型为研究复杂疾病(如多突变驱动的癌症)和病毒进化提供了新工具,同时大幅降低了实验筛查成本。
局限性包括:1)当前为蛋白质特异性模型;2)组合策略有待优化;3)MAVE数据可靠性可能影响预测。随着更多高阶变体数据的积累,MMRT有望发展为通用型预测平台。这项研究标志着蛋白质变体预测从低阶向高阶的重要跨越,为精准医学和合成生物学发展提供了新思路。
生物通微信公众号
知名企业招聘