豌豆:一种用于自主精确构象采样的方法
《Journal of Chemical Information and Modeling》:PEAS: An Application for Autonomous Precision Conformation Sampling
【字体:
大
中
小
】
时间:2025年11月06日
来源:Journal of Chemical Information and Modeling 5.3
编辑推荐:
1. PEAS是一种集电荷状态预测、构象生成与筛选于一体的开源Python工具,用于离子迁移质谱数据驱动的气相结构建模,通过模块化整合减少用户干预并提升计算效率,支持Google Colab平台运行。
分子建模工具在计算化学和计算生物学领域已经成为常规应用。随着硬件和软件技术的不断进步,建模复杂化学系统的能力变得更加精确和高效。然而,面对众多可用于执行不同任务的软件工具,选择最优的建模流程却变得尤为复杂。为了解决这一问题,我们最近开发了一种专门用于将实验获得的离子迁移率质谱(IM-MS)碰撞截面(CCS)值与化学结构匹配的建模流程。该流程包括多个关键步骤,如质子化状态的分配、相关构象的生成以及构象相似性过滤,以减少后续量子力学(QM)计算的工作量。
为了简化这一流程的运行,我们开发了一款开源、用户友好的Python应用程序,名为PEAS(**p**recise **e**nsemble **a**utonomous **s**ampling)。PEAS通过垂直整合多个建模引擎,减少了用户在流程中的干预,从而实现了结果链的高效处理。在建模流程中,关键的前期步骤包括电荷状态的确定和相关构象的采样。因此,我们整合了SEER(电荷状态预测引擎)、Confab(构象生成引擎)和CCSF(构象过滤引擎)三个工具,以提高流程的效率和准确性。这些工具在各自的开发中已经过验证,并表现出较高的效率和可接受的精度,因此它们的联合使用也能够提供相似的结果。
PEAS的应用程序界面为用户提供了直观的操作方式,用户只需提供化学结构的输入,即可启动整个建模流程。具体而言,PEAS按照以下顺序执行程序:1)使用SEER分配电荷状态;2)通过Confab生成构象;3)利用CCSF对生成的构象进行筛选,确保其与实验条件的匹配性;4)最后,通过“正常行走”算法进一步减少构象的冗余,提高后续QM计算的效率。整个流程通过整合多个模块,实现了从电荷状态分配到构象生成、筛选和优化的自动化操作。
在电荷状态分配方面,SEER模块能够处理中性化学结构的输入,无论是SMILES字符串还是XYZ格式文件。该模块首先利用Yggdrasil决策森林算法对所有可电离的氮和氧原子进行枚举、筛选和能量排序,以确定最可能的电荷状态。随后,SEER将这些排序后的电荷模型输入到ANI-2x模型中,进行几何优化和能量计算。默认情况下,该步骤在CPU上运行,但也可以通过更改运行时设置启用GPU加速。在实验中,我们对比了CPU和T4 GPU在处理不同电荷模型时的计算成本,发现GPU能够显著提升处理速度。生成的电荷模型会根据其相对能量进行重新排序,其中ANI-2x的能量计算结果将覆盖初始的GBT模型排序。最终,所有电荷模型的结果将按照排序编号保存在对应的XYZ文件中,并存储在“/Completed_Job/[分子名称]”目录下,同时还会在运行完成后生成一个包含电荷状态相关信息的摘要日志文件“results_sum.log”。
Confab模块是PEAS中用于构象生成的关键部分。它会遍历“/Completed_Job/[分子名称]”目录,对所有已优化的电荷模型进行处理,并默认生成1000个独特且低能的构象。然而,Confab内置的过滤机制会移除结构相似度高或能量过大的构象,因此在某些情况下,生成的构象数量可能不足1000。对于PEAS而言,这种不足并不会造成问题,因为后续的CCSF模块和“正常行走”算法会进一步对构象进行筛选和优化。如果初始生成的构象数量较少,用户可以通过调整参数(如“num_of conf”)来增加生成的构象数量,以确保最终的构象集合足够丰富。生成的构象将被保存在“/Completed_Job/[分子名称]/Conformer/opt_Rank[n]_focus/”目录下,其中n代表不同的电荷状态。如果最终该目录下的构象数量不足50个,则会作为整个PEAS任务的输出,自动打包成ZIP文件供用户下载。
CCSF模块是PEAS中用于构象筛选的核心工具。它基于一个经过训练的TensorFlow Keras深度神经网络(DNN)模型,该模型利用预优化的化学几何结构(即原始3D结构)和从密度泛函理论(DFT)计算中提取的CCS值作为输入特征。目前,用于训练CCSF模型的化学系统包括小分子、脂类、核苷酸和肽类(氨基酸残基数量从3到17不等)。虽然我们使用了多种化学类别进行训练,但每个类别中的数据点数量有限,总共仅包含4000个数据点。CCSF模块的作用是根据实验参考值对生成的构象进行筛选,从而聚焦于与实验条件最匹配的构象空间。该模块的输出是经过筛选后的构象集合,这些构象被保存在指定的子目录中,以便后续处理。
为了进一步减少构象集合中的冗余,PEAS在最后一步采用了“正常行走”算法。该算法基于单值分解(SVD)方法,用于评估不同构象之间的相似性,并根据这些相似性对构象进行筛选。具体而言,“正常行走”算法会计算每个构象与参考构象之间的均方根偏差(RMSD),并将这些RMSD值与整个集合的相似性阈值进行比较。如果某个构象的RMSD低于该阈值,则会被移除。该算法通过设置步数(step)来控制筛选过程,步数的计算公式为:**step = 20 × ROT**,其中ROT代表系统中可旋转的键数,20是一个经验性设定的数值,用于确保足够的采样量。通过“正常行走”算法,PEAS能够在不牺牲构象多样性的情况下,显著减少构象集合的大小,从而降低后续量子力学计算的负担。
在验证和基准测试方面,我们首先对Confab模块进行了独立测试。为了确保生成的构象能够与实验条件匹配,我们要求其达到一个最大允许的CCS误差阈值,即≤3%。这一误差范围考虑了离子迁移率质谱实验中CCS值的不确定性。通过将生成的构象进行几何优化和单点能量计算,我们评估了其对应的CCS误差,并发现对于10个测试系统,平均CCS误差约为2%。其中,8个系统的误差低于3%,表明Confab在生成实验可行的构象方面表现良好。
接下来,我们对Confab和CCSF模块的联合使用进行了基准测试。为了比较不同方法的性能,我们选取了8个测试系统,分别使用Confab/CCSF(即PEAS)、Confab和ConfGen生成构象集合。随后,所有生成的构象集合均通过AutoGraph进行聚类处理,以去除结构相似度高的构象。接着,我们对这些聚类后的构象进行DFT优化和单点能量计算,并利用HPCCS工具计算其对应的CCS值。结果表明,对于5个测试系统,Confab/CCSF生成的构象能够达到比单独使用Confab或ConfGen更低的能量值,且平均CCS误差分别为1.4%、1.9%和1.4%。这说明,将CCSF整合到PEAS中,不仅能够有效筛选出与实验条件匹配的构象,还能进一步提升构象集合的质量。
此外,我们还对“正常行走”算法的性能进行了测试,将其与AutoGraph进行了对比。在测试中,我们发现“正常行走”算法能够保留更多的构象,同时其预测的CCS误差与AutoGraph相当。然而,与AutoGraph相比,“正常行走”算法能够捕获更大的DFT能量范围(平均约为43 kcal/mol),这对于寻找能量最低的构象至关重要。尽管如此,由于“正常行走”算法生成的构象数量较多,这可能会增加后续QM计算的计算成本。但值得注意的是,该算法在生成构象阶段的速度显著快于AutoGraph,尤其是在处理大规模构象集合时,其速度提升更为明显。例如,当构象数量超过3000时,AutoGraph需要将构象集合分割成多个子集才能进行处理,而“正常行走”算法则可以一次性处理大量构象,从而提高整体效率。
在PEAS的整体性能测试中,我们选取了24个新的化学系统,包括各种大小和复杂度的小分子和生物分子。测试结果表明,PEAS能够对所有系统实现CCS误差低于3%的目标,其中平均误差为1.63% ± 1。这些参考CCS值来源于DTIMS(漂移管离子迁移率质谱)和TWIMS(行波离子迁移率质谱)实验。由于这两种实验方法的CCS值通常相差1–2%,因此PEAS的性能在这一误差范围内是可以接受的。这说明,PEAS不仅适用于DTIMS实验,还能够处理TWIMS实验中产生的离子迁移率数据。
尽管PEAS在多个方面表现出色,但它仍然存在一定的局限性。这些局限性主要来自于构成PEAS的各个软件模块的训练数据集。例如,SEER和CCSF的性能受限于其训练数据的质量和覆盖范围。对于某些系统,尤其是那些具有大量可电离位点的复杂分子,PEAS可能无法准确预测其电荷状态,从而导致任务终止。此外,对于某些分子,如甾体类化合物,由于缺乏可预测的质子化或去质子化位点,PEAS可能无法生成有效的构象集合。因此,用户在使用PEAS时需要根据具体系统的特性进行适当调整,以确保其能够有效运行并生成符合实验要求的构象集合。
综上所述,PEAS是一款能够有效整合多个分子建模工具的开源Python应用程序,它通过自动化流程显著提升了离子迁移率质谱实验中构象生成和筛选的效率。该程序在电荷状态分配、构象生成和筛选方面均表现出良好的性能,并且通过减少用户干预和文件操作,使得整个建模流程更加流畅和高效。尽管PEAS在某些特定情况下可能受到限制,但其整体性能和应用范围已经得到了充分验证,为计算化学和计算生物学领域提供了重要的工具支持。通过PEAS,研究人员可以更高效地处理实验数据,减少计算资源的消耗,并更快地获得符合实验要求的分子结构信息。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号