从机器学习预测的分布中提取力场参数,以应用于高通量虚拟筛选

《Journal of Chemical Information and Modeling》:Condensation of Force Field Parameters from Machine Learning Predicted Distributions for High-Throughput Virtual Screening Applications

【字体: 时间:2025年11月24日 来源:Journal of Chemical Information and Modeling 5.3

编辑推荐:

  高效虚拟筛选中的机器学习力场参数压缩方法研究

  在分子模拟和药物发现领域,力场(Force Field, FF)扮演着至关重要的角色。传统的力场,如MMFF94和OpenFF,通过基于化学环境的预定义规则和参数来描述分子的相互作用,具有高度的可迁移性,可以用于不同分子的建模。然而,一旦这些力场被参数化为特定数据集,它们在面对新的化学实体、传感方案或功能形式时就难以进行重新调整。相比之下,机器学习力场(Machine Learning Force Fields, MLFF)近年来因其在预测精度和扩展适用域(Applicability Domain, AD)方面的优势而受到广泛关注。尽管如此,MLFF的预测时间较长,使其在高通量虚拟筛选(High-Throughput Virtual Screening, HTVS)等对计算效率要求极高的应用中显得不够理想。

为了解决这一问题,本文提出了一种新的“凝结”方法,该方法利用机器学习算法在代表性训练集上大规模生成力场参数的数值分布,然后通过统计方式将这些分布压缩为单一值,从而在不牺牲太多预测精度的前提下显著提升计算效率。这一方法的核心思想是,通过预处理的方式,将力场参数预先计算并存储,使得在实际应用中,无需在运行时进行复杂的预测,从而提高效率。本文通过使用Espaloma模型预测的参数,并结合MMFF94的化学传感方案,对这一方法进行了验证。

首先,力场通常由一系列分析函数构成,这些函数依赖于分子的内部坐标和参数。在Class I力场中,这些函数主要采用谐波形式来描述键伸缩、角度弯曲和正常的二面角相互作用,而不考虑跨项或非谐波形式。这种简化虽然有助于提高计算效率,但在处理极端条件下的分子行为时可能不够准确。Class II力场则引入了跨项和非谐波形式,从而能够更精确地模拟分子的振动频率、构象能量和二面角势垒,其预测精度通常优于Class I力场。然而,Class II力场的计算复杂度更高,使得其在大规模HTVS应用中面临效率瓶颈。

本文提出的方法旨在通过统计方法对力场参数进行凝结,从而在不牺牲太多预测精度的前提下显著提高计算效率。这一方法的关键在于,通过机器学习模型在训练集中大规模生成力场参数的数值分布,并将这些分布转换为一个代表性的单一值。具体来说,对于每一个特定的力场参数,如键伸缩参数、角度弯曲参数和二面角参数,我们首先根据分子的化学环境进行分类,然后利用统计方法(如均值、中位数和众数)来提取代表值。这种方法不仅能够减少计算负担,还能确保力场参数在统计意义上的准确性。

在实验部分,我们对Espaloma Class I模型进行了训练,并将其参数用于构建凝结后的力场。通过与MMFF94和OpenFF等传统力场进行比较,我们发现凝结后的Espaloma模型在计算效率方面有显著提升,具体表现为速度提高了30倍,而预测精度仅略有下降。这一结果表明,凝结方法在保持较高预测精度的同时,能够显著提高计算效率,从而更适合应用于高通量虚拟筛选等大规模计算任务。

此外,本文还探讨了如何利用主动学习策略来扩展凝结模型的适用域。主动学习能够高效地选择新的训练实例,从而在不增加计算负担的情况下提高模型的泛化能力。这一策略对于处理新化学实体或改进力场参数尤为重要,因为它可以减少过拟合和欠拟合的风险,同时保持模型的灵活性和可扩展性。

在进一步的评估中,我们使用了OpenFF Industry Benchmark Season 1 v1.1数据集,该数据集包含多种药物分子,用于评估不同力场在预测分子构象方面的性能。通过计算根均方偏差(RMSD)和二面角指纹偏差(TFD),我们发现凝结后的Espaloma模型在这些指标上的表现与原模型相比仅略有下降,但计算效率大幅提升。这一结果表明,凝结方法能够在保持较高预测精度的同时,显著提高计算效率,从而更适合应用于高通量虚拟筛选。

本文还探讨了如何利用Espaloma模型的模块化特性,进一步改进其在描述蛋白质-配体非共价相互作用方面的能力。例如,通过引入专门的分子间相互作用函数,可以更准确地模拟氢键、π-π堆积和离子-偶极相互作用。这些改进将进一步提升凝结模型在药物发现中的应用价值。

总之,本文提出了一种基于机器学习的力场参数凝结方法,该方法能够在不牺牲太多预测精度的前提下显著提高计算效率。通过与传统力场和MLFF的对比,我们发现凝结后的Espaloma模型在计算效率方面具有明显优势,同时在预测精度上仍保持较高的水平。这一方法为高通量虚拟筛选等计算密集型应用提供了新的解决方案,同时也为未来机器学习力场的发展指明了方向。未来的工作将进一步探索如何利用主动学习策略扩展模型的适用域,并提高其在描述复杂分子相互作用方面的能力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号