综述:机器学习与粗粒化势能在生物分子模拟中的最新进展及其应用

【字体: 时间:2025年06月22日 来源:Biophysical Journal 3.4

编辑推荐:

  这篇综述系统阐述了机器学习(ML)与粗粒化(CG)方法在生物分子模拟中的协同创新,重点介绍了量子力学精度的ML势能(MLPs)、CG模型参数化及反向映射(backmapping)技术。通过整合ML与CG策略,研究者克服了传统全原子(AA)模拟的时空限制,实现了从蛋白质折叠到病毒-宿主互作的多尺度研究,为药物开发和疾病机制解析提供了新工具。

  

引言

生物分子模拟已成为解析生物系统复杂动力学的核心工具,其应用涵盖药物开发、病毒侵染机制等领域。然而,生物过程的多尺度特性(如蛋白质折叠微秒级动态与纳米级构象变化)对传统全原子分子动力学(AA-MD)提出挑战:虽能提供原子级精度,但受限于计算资源仅能模拟短时程和小尺度变化。粗粒化(CG)模型通过简化分子复杂度扩展了时空尺度,却牺牲了原子精度。近年来,机器学习(ML)的引入为两类方法架起桥梁——ML势能(MLPs)以量子力学(QM)精度预测能量,而反向映射技术则重建CG轨迹的原子细节。

原子级机器学习势能

纯量子力学ML势能

基于Behler-Parrinello神经网络(BPNN)与高斯近似势(GAP)的突破,MLPs通过对称函数(SFs)和元素特异性神经网络实现高精度能量预测。例如,SpookyNet模型通过物理启发电荷与色散模块,成功模拟了SARS-CoV-2刺突蛋白与ACE2的结合曲线。

ML增强的半经验方法

半经验(SE)方法(如PM6、DFTB)通过Δ学习策略提升效率:训练SE与DFT能量差异的校正模型。例如,AIQM1模型以CCSD(T)*/CBS精度预测有机分子性质,而PM6-ML在肽段构象能预测中达到DFT水平。

混合MM/ML模型

结合分子力学(MM)与ML的优势,如ANI-2x/AMOEBA模型用ML处理溶质内相互作用,AMOEBA力场描述溶剂环境,显著提升结合自由能计算精度。Espaloma模型则通过图神经网络(GNN)优化MM参数,实现百万原子病毒颗粒(如STMV)的模拟。

粗粒化势能

主流CG模型对比

  • SIRAH:3-8珠模型,保留偶极矩效应,适用于DNA-蛋白复合物(如hTAAR1受体构象调控)。
  • SPICA:基于脂质自组装参数化,通过弹性网络(EN)维持蛋白结构,但限制构象变化研究。
  • GōMartini 3:虚拟位点定义接触图,成功模拟SARS-CoV-2变异株与纳米抗体的机械稳定性。

统计与物理混合CG模型

  • CABS:基于PDB统计势,擅长IDP构象预测,但跨分子适用性有限。
  • AWSEM:隐式溶剂模型结合局部结构偏向,成功模拟噬菌体DNA解旋酶转运。

ML驱动的反向映射技术

传统启发式方法(如片段库搜索)难以恢复构象多样性。近期生成模型(如VAE、扩散模型)实现了一对多映射:

  • DiAMoNDBack:扩散模型生成Cα轨迹的原子级构象系综,复现实验观测的多样性。
  • FlowBack:基于流匹配先验,高效重建蛋白质-DNA复合物原子细节。

挑战与展望

当前MLPs需解决长程相互作用与活性学习采样问题;CG模型需增强IDP相变表征能力,而反向映射需扩展至任意CG映射与玻尔兹曼分布约束。整合冷冻电镜(cryo-EM)数据重加权与多尺度ML框架,将是未来突破生物模拟极限的关键。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号