
-
生物通官微
陪你抓住生命科技
跳动的脉搏
DivPro:基于结构恢复指导的多样化蛋白质序列设计新方法
【字体: 大 中 小 】 时间:2025年07月16日 来源:Bioinformatics 4.4
编辑推荐:
本研究针对蛋白质设计中序列与结构关系的模糊性问题,开发了DivPro模型。该研究突破现有方法依赖单一序列恢复指标的局限,通过构建概率序列空间结合结构预测指导(如AlphaFold2和ESMFold验证),实现了在保持高结构恢复率(TM score/RMSD)的同时显著提升序列多样性(20%以上)。这项工作为理解蛋白质结构鲁棒性及药物设计提供了新工具。
蛋白质设计领域长期面临一个根本性矛盾:相似的序列可能折叠成不同结构,而远源同源蛋白却能在低序列相似性下保持结构高度相似。这种序列-结构关系的模糊性严重制约了蛋白质设计效率,尤其在新酶设计和治疗性蛋白开发中。传统方法如ProteinMPNN和ESM-IF1过度依赖序列恢复指标,导致生成序列多样性不足且无法保证结构保守性。

香港中文大学计算机科学与工程系的研究团队开发了DivPro模型,创新性地将变分自编码器(VAE)框架引入蛋白质设计。该模型通过三阶段技术路线实现突破:1)构建k近邻图(k=48)表征蛋白质骨架结构,提取Cα/Cβ原子距离特征;2)采用消息传递神经网络学习概率序列空间(μ/σ参数化);3)引入trRosettaX-Single结构预测模型提供端到端可微的结构恢复指导(公式7-10)。研究在CATH 4.2、TS50和TS500数据集上的实验表明,DivPro生成序列的TM score比随机突变(BLOSMut)提高37%,同时保持相当的序列多样性(0.68 vs 0.71)。
关键技术包括:1)基于48近邻图的3层消息传递编码器;2)Gumbel-Softmax实现的离散序列采样;3)两阶段训练策略(先150轮序列恢复预训练,再20轮结构引导微调);4)ESMFold和AlphaFold2双重验证体系。
结构恢复与序列多样性
在CATH 4.2测试集上,DivPro的TM score达0.82±0.11,显著优于BLOSMut的0.45±0.16。通过曼特尔检验发现,模型学习的特征空间距离与1-TM score显著相关(r=0.40, P<0.001),证明其能捕获结构相似性。

应用验证
在54个蛋白质复合物改造实验中,PPA-Pred2预测显示DivPro设计序列保持了野生型83%的结合亲和力(图7)。典型案例1OR4的序列恢复率虽仅30%,但AlphaFold2预测结构RMSD仅1.2?。

该研究首次实现了蛋白质设计中的"多样性-稳定性"平衡,其创新点在于:1)建立概率序列空间与结构恢复的显式关联;2)开发可微分结构指导的训练框架。局限性在于计算成本较高,未来可通过轻量化折叠模型优化。这项工作为理解蛋白质进化适应性提供了新视角,在药物候选分子扩展方面具有重要应用价值。
生物通微信公众号
知名企业招聘