机器学习替代模型加速多尺度力场参数优化：以分子动力学计算替代为核心的高效优化策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月09日 来源：ChemPhysChem 2.2

编辑推荐：

　　这篇研究论文创新性地提出用机器学习（ML）替代模型取代耗时分子动力学（MD）模拟，实现多尺度力场参数（FFParam）优化效率提升20倍。通过训练神经网络（FNN）预测正辛烷的体相密度和构象能（RCE），在保持力场（FF）质量的同时，建立了可复用、模块化的替代模型辅助优化（SMAOpt）工作流程，为分子模拟领域提供了高效参数优化新范式。

分子建模在材料科学和药物设计等领域具有重要作用，其核心是精确的力场（Force Field, FF）参数。传统力场参数（FFParam）优化依赖耗时的分子动力学（Molecular Dynamics, MD）模拟，成为制约研究效率的瓶颈。本研究通过机器学习（Machine Learning, ML）替代模型实现了突破性进展。

方法学创新

研究团队开发的力场优化工作流程（Force FieLd Optimization Workflow, FFLOW）采用模块化设计，将MD模拟替换为前馈神经网络（Feed-Forward Neural Network, FNN）预测模型。针对正辛烷体系，重点优化了碳氢原子的Lennard-Jones参数（LJParams），包括σ_C、σ_H、ε_C和ε_H四个参数，目标性质为体相密度（700 kg m^-3）和96个相对构象能（Relative Conformational Energies, RCE）。

数据采集与处理

研究比较了网格采样（Grid1296/Grid2401）和Sobol伪随机序列采样策略，发现后者能更好捕捉参数空间的多模态特征。数据预处理剔除异常值后，通过均值绝对百分比误差（MAPE）和决定系数（R²）评估模型性能。有趣的是，仅需20-35%训练数据（约400-700样本）即可使随机森林回归（Random Forest Regression, RFR）和高斯过程回归（Gaussian Process Regression, GPR）模型收敛。

模型性能对比

五种ML方法对比显示：

1.
线性回归无法处理多模态特征（MAPE≈10%，R²≈0.5）
2.
多项式回归易过拟合（最优阶数2≤d≤5）
3.
RFR稳健性最佳（t=100棵树时性能饱和）
4.
GPR中有理二次（Rational Quadratic, RQ）核表现最优
5.
FNN综合性能最佳（最优模型MAPE=0.00884，R²=0.99237）

优化效果验证

替代模型辅助优化（Surrogate Model-Assisted Optimization, SMAOpt）获得的关键成果：

•
优化时间从73.5小时缩短至4小时（提升20倍）
•
体相密度误差保持1.1%±0.1%（原方法1.0%±0.67%）
•
RCE误差10.82-11.97%（原方法9.75%）
•
参数σ_C稳定在0.3280-0.3295 nm，ε_C优化至0.5969-0.5977 kJ mol^-1

技术优势与展望

该方法突破性地保留了工作流模块化特性，可灵活添加新优化目标。研究建议未来方向包括：

1.
开发多参数集输出算法
2.
扩展温度范围和多物质优化
3.
全面景观分析指导模型选择
4.
进一步替代MM能量最小化计算

这项研究为计算化学领域提供了高效参数优化新工具，其"训练一次，多次使用"的特点尤其适合需要反复优化的复杂体系研究。通过揭示参数与性质间的非线性映射关系，该方法还能增进对分子力场的本质理解，为开发下一代智能优化算法奠定基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号