
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:机器学习与粗粒化势能在生物分子模拟中的最新进展及其应用
【字体: 大 中 小 】 时间:2025年06月22日 来源:Biophysical Journal 3.4
编辑推荐:
这篇综述系统阐述了机器学习(ML)与粗粒化(CG)方法在生物分子模拟中的协同创新,重点介绍了量子力学精度的ML势能(MLPs)、CG模型参数化及反向映射(backmapping)技术。通过整合ML与CG策略,研究者克服了传统全原子(AA)模拟的时空限制,实现了从蛋白质折叠到病毒-宿主互作的多尺度研究,为药物开发和疾病机制解析提供了新工具。
生物分子模拟已成为解析生物系统复杂动力学的核心工具,其应用涵盖药物开发、病毒侵染机制等领域。然而,生物过程的多尺度特性(如蛋白质折叠微秒级动态与纳米级构象变化)对传统全原子分子动力学(AA-MD)提出挑战:虽能提供原子级精度,但受限于计算资源仅能模拟短时程和小尺度变化。粗粒化(CG)模型通过简化分子复杂度扩展了时空尺度,却牺牲了原子精度。近年来,机器学习(ML)的引入为两类方法架起桥梁——ML势能(MLPs)以量子力学(QM)精度预测能量,而反向映射技术则重建CG轨迹的原子细节。
基于Behler-Parrinello神经网络(BPNN)与高斯近似势(GAP)的突破,MLPs通过对称函数(SFs)和元素特异性神经网络实现高精度能量预测。例如,SpookyNet模型通过物理启发电荷与色散模块,成功模拟了SARS-CoV-2刺突蛋白与ACE2的结合曲线。

半经验(SE)方法(如PM6、DFTB)通过Δ学习策略提升效率:训练SE与DFT能量差异的校正模型。例如,AIQM1模型以CCSD(T)*/CBS精度预测有机分子性质,而PM6-ML在肽段构象能预测中达到DFT水平。
结合分子力学(MM)与ML的优势,如ANI-2x/AMOEBA模型用ML处理溶质内相互作用,AMOEBA力场描述溶剂环境,显著提升结合自由能计算精度。Espaloma模型则通过图神经网络(GNN)优化MM参数,实现百万原子病毒颗粒(如STMV)的模拟。

传统启发式方法(如片段库搜索)难以恢复构象多样性。近期生成模型(如VAE、扩散模型)实现了一对多映射:

当前MLPs需解决长程相互作用与活性学习采样问题;CG模型需增强IDP相变表征能力,而反向映射需扩展至任意CG映射与玻尔兹曼分布约束。整合冷冻电镜(cryo-EM)数据重加权与多尺度ML框架,将是未来突破生物模拟极限的关键。
生物通微信公众号
知名企业招聘