
-
生物通官微
陪你抓住生命科技
跳动的脉搏
机器学习驱动的可迁移粗粒化模型:探索蛋白质能量景观的新范式
【字体: 大 中 小 】 时间:2025年07月19日 来源:Nature Chemistry 19.2
编辑推荐:
研究人员开发了一种基于深度学习的可迁移粗粒化(CG)力场模型CGSchNet,通过整合大规模全原子分子动力学(MD)模拟数据,成功实现了对蛋白质构象动力学的高效预测。该模型能准确预测折叠/未折叠态、固有无序蛋白(IDP)波动以及突变自由能变化,计算效率比全原子模型提高数个数量级,为蛋白质能量景观研究提供了通用计算框架。
蛋白质是生命活动的主要执行者,其功能实现依赖于复杂的三维结构动态变化。尽管全原子分子动力学(MD)模拟已成为研究蛋白质构象变化的重要工具,但其极高的计算成本严重限制了在较大蛋白质体系中的应用。传统粗粒化(CG)模型虽能提高计算效率,但在化学可迁移性和多体相互作用描述方面存在明显局限,难以实现与全原子模型相当的预测准确性。这一瓶颈使得开发兼具高效性和准确性的通用蛋白质模拟方法成为计算生物学领域长期未解的挑战。
来自德国柏林自由大学物理系、柏林超级计算研究所等机构的研究团队在《Nature Chemistry》发表突破性研究成果,通过整合深度学习技术与大规模全原子模拟数据,开发出首个具有化学可迁移性的机器学习粗粒化力场CGSchNet。该模型采用五珠/残基的分辨率方案,结合图神经网络架构与物理先验能量项,成功实现了对蛋白质能量景观的高精度预测,计算速度较全原子MD提升数个数量级。这项研究为蛋白质动力学研究提供了革命性的计算工具,使科学家能够探索传统方法难以触及的蛋白质构象变化过程。
研究团队采用了三项关键技术方法:1)构建包含50个CATH结构域蛋白和1,200个二肽二聚体的全原子MD训练数据集;2)开发基于SchNet架构的图神经网络模型,结合变分力匹配方法优化CG力场参数;3)采用并行回火和马尔可夫状态模型等增强采样技术进行构象空间探索。模型验证涵盖8-73个氨基酸的测试蛋白,与全原子MD和实验数据进行系统比较。
"多肽和小蛋白质的构象景观"部分显示,CGSchNet能准确重现测试肽段和快速折叠蛋白的自由能景观。对chignolin(2RVD)、TRPcage(2JOF)等测试蛋白的模拟不仅正确预测了天然态结构(Q值接近1,Cα RMSD低),还能捕捉到与全原子MD一致的错误折叠中间态。特别是对chignolin的模拟重现了TYR1-TYR2错配的亚稳态,验证了模型对复杂构象变化的描述能力。
"大蛋白质的外推性能"部分证实模型可推广到更大体系。对54残基的同源结构域蛋白(1ENH)和73残基设计的α3D蛋白(2A3D),CGSchNet从延伸构象成功折叠至接近天然态的结构,其Cα涨落与全原子模拟结果高度一致。值得注意的是,模型还识别出α3D蛋白的替代三螺旋束拓扑结构,这与先前实验观察到的构象异质性相符。
"与其它CG力场的详细比较"部分通过时间滞后独立成分分析(TICA)揭示CGSchNet的独特优势。相较于AWSEM、UNRES和Martini等传统CG力场,CGSchNet能同时稳定折叠态和未折叠态,并捕捉更多全原子MD中的亚稳态。特别是在chignolin体系中,模型正确重现了折叠态、错误折叠态和未折叠态三个主要亚稳态,而其他CG力场往往只能稳定其中单一状态。
"超越球状蛋白折叠"的应用拓展显示模型的广泛适用性。在PUMA-MCL-1结合体系模拟中,游离PUMA肽段呈现无序特征(Cα RMSD波动大),而与MCL-1蛋白共存时迅速折叠成稳定螺旋结构(RMSD≈2.5?)。对照实验显示该折叠具有结合特异性,突显模型对蛋白质-蛋白质相互作用的准确描述。
"泛素的突变分析"验证了模型的化学可迁移性。通过简单改变Cβ珠类型实现点突变,模型预测的ΔΔG值与实验测量结果高度相关(Pearson r=0.63),准确度与全原子方法相当。这一结果证实模型已学习到氨基酸残基间的普适物理相互作用规律。
这项研究标志着计算生物学领域的重要突破。CGSchNet模型首次实现了全原子精度与CG效率的统一,其成功源于三个关键创新:1)物理启发的先验能量项与神经网络能量项的有机结合;2)覆盖充分构象空间的多样化训练数据集;3)基于图神经网络的多体相互作用描述能力。尽管在完全无序蛋白的构象描述等方面仍有改进空间,该模型已展现出解决蛋白质折叠机制、构象变化动力学和突变效应等核心问题的强大潜力。随着训练数据集的扩展和网络架构的优化,这类可迁移CG模型有望成为连接分子模拟与实验观察的重要桥梁,为理解蛋白质功能机制和指导理性设计提供全新研究范式。
生物通微信公众号
知名企业招聘