基于递归树深度学习的多突变蛋白高阶变体功能效应预测模型MMRT研究

【字体: 时间:2025年05月07日 来源:Computational and Structural Biotechnology Journal 4.5

编辑推荐:

  本研究针对高阶蛋白变体功能效应预测难题,开发了整合低阶变体信息的递归树深度学习模型MMRT。通过分析685,593个高阶变体数据,模型平均Spearman相关系数达0.55,显著优于ESM、DeepSequence和ECNet等现有方法,为复杂疾病机制解析和蛋白质工程提供了创新工具。

  

在生命科学领域,蛋白质序列变异对其功能和稳定性的影响一直是研究热点。随着高通量实验技术的发展,单突变、双突变和三突变等低阶变体已得到广泛研究,但涉及三个以上位点同时突变的高阶变体研究却进展缓慢。这主要因为高阶变体组合数量呈指数级增长,实验方法难以全面覆盖。然而,高阶变体在病毒进化(如SARS-CoV-2刺突蛋白变异)、癌症发生和蛋白质工程中扮演关键角色,亟需开发高效预测方法。

针对这一挑战,研究人员开发了名为多突变递归树(MultiMut Recursive Tree, MMRT)的新型深度学习模型。该研究发表在《Computational and Structural Biotechnology Journal》上,通过整合进化尺度建模(ESM)生成的蛋白质表示向量和递归神经网络架构,创新性地利用低阶变体信息预测高阶变体功能效应。

关键技术方法包括:1)使用ESM_r(esm1v_t33_650M_UR90S_1)生成1280维蛋白质位点特征向量;2)构建递归树结构逐步整合多突变位点信息;3)采用窗口扩展策略(MMRT-WIN)增强上下文特征捕捉;4)基于11个蛋白质的685,593个变体数据集进行模型训练和验证。

研究结果部分显示:
3.1 盲测模型性能
MMRT-TR23-WIN模型在30个数据集中21个优于ESM2,平均Spearman相关系数提升0.27。对HIS7(4)变体的预测相关系数达0.62,显著高于ESM1(0.31)和ESM2(0.34)。

3.2 不同MMRT模型比较
训练包含三重变体的模型(MMRT-TR123-WIN)性能最优,证实三重变体对捕捉上位效应至关重要。单突变训练模型预测能力有限,如ECNet-TR1对HIS7(10+)变体预测相关系数仅0.1。

3.3 小样本微调模型
使用10%高阶变体微调的MMRT模型性能显著提升,如PHOT(6)变体预测相关系数达0.94,较基础模型提高0.32。

讨论部分指出,MMRT的创新性在于:1)首次实现从低阶到高阶变体的功能效应外推;2)递归树结构有效捕捉多突变协同效应;3)窗口策略增强局部环境特征提取。该模型为研究复杂疾病(如多突变驱动的癌症)和病毒进化提供了新工具,同时大幅降低了实验筛查成本。

局限性包括:1)当前为蛋白质特异性模型;2)组合策略有待优化;3)MAVE数据可靠性可能影响预测。随着更多高阶变体数据的积累,MMRT有望发展为通用型预测平台。这项研究标志着蛋白质变体预测从低阶向高阶的重要跨越,为精准医学和合成生物学发展提供了新思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号