QDπ数据集:面向药物发现的小分子与生物聚合物片段相互作用的高精度机器学习势能训练数据库

【字体: 时间:2025年04月26日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对药物发现领域缺乏覆盖广泛化学空间的通用机器学习势能(MLP)训练数据问题,开发了QDπ数据集。研究人员通过主动学习策略整合SPICE、ANI等多源数据,采用wB97M-D3(BJ)/def2-TZVPPD高精度计算方法,构建包含160万结构的数据库,覆盖13种元素。该数据集为开发精准药物分子力场提供了高化学信息密度的训练资源,显著提升了MLP在构象能垒、互作界面等关键药物特性预测中的可靠性。

  

在药物研发领域,准确预测分子间相互作用和构象变化一直是个重大挑战。传统分子力学力场面对新型药物分子时常常"力不从心",特别是对那些尚未合成的化合物更是束手无策。虽然机器学习势能(MLP)技术为这一困境带来了曙光,但其发展却受限于训练数据的质量和覆盖范围。现有数据集要么化学多样性不足,要么计算精度不够,更糟糕的是,不同数据集间的计算方法不统一,导致模型预测结果参差不齐。这种状况严重制约了MLP在药物发现中的应用效果。

美国罗格斯大学和加州大学圣地亚哥分校的Jinzhe Zeng、Darrin M. York等研究人员在《Scientific Data》发表的研究,通过整合多源数据并采用统一的高精度量子化学计算方法,构建了名为QDπ的新型训练数据集。该研究创新性地采用"委员会查询"主动学习策略,从超过4000万初始结构中精选出最具代表性的160万个分子构象,在保证化学多样性的同时大幅降低了计算成本。特别值得注意的是,所有数据均采用wB97M-D3(BJ)/def2-TZVPPD这一经GMTKN55基准验证的高精度方法进行计算,确保了数据的可靠性。

研究团队主要运用了四项关键技术:直接整合法用于处理已有wB97M-D3(BJ)计算数据;重标定法对小规模非标准数据集进行重新计算;主动学习修剪策略通过4个MLP模型的共识筛选大型数据集;分子动力学增强策略扩展小数据集构象空间。这些方法协同作用,确保了数据集既全面又高效。

在"数据生成"部分,研究详细比较了不同数据选择方法的优劣。直接整合法完整保留了SPICE数据集107万结构;主动学习修剪将ANI数据集从604万压缩至32万,保留95%化学多样性;分子动力学增强策略则使FreeSolv数据集从504个分子扩展至7.6万构象。这种组合策略实现了数据规模与质量的优化平衡。

"数据集内容"章节显示,QDπ覆盖H、C、N、O等13种药物常见元素,中性分子和带电分子分别占153万和11万结构。特别有价值的是包含了传统数据集缺乏的离子对和互作界面数据。通过t-SNE可视化分析证实,QDπ的化学空间覆盖度显著优于单独的SPICE或ANI数据集。

技术验证部分着重比较了wB97M-D3(BJ)与常用wB97X/6-31G*方法的差异。关键发现是两种方法原子力预测差异达2.4-3.2 kcal/mol/?,远超MLP模型误差范围,这凸显了采用高精度基准方法的重要性。数据集还建立了严格的质量控制流程,通过8σ离群值剔除确保数据可靠性。

这项研究的创新价值主要体现在三个方面:首先,QDπ是目前首个专门针对药物发现需求设计的大规模高精度数据集;其次,提出的主动学习数据筛选策略将必要计算量降低至原始数据的3.8%,极大提高了研究效率;最重要的是,统一的计算标准解决了不同来源数据间的系统偏差问题,为开发通用MLP模型奠定了基础。该数据集已通过DeePMD-kit软件包开源共享,将有力推动下一代药物分子模拟技术的发展。

展望未来,研究人员指出SPICE v2等新数据源的整合、金属有机化合物的纳入将是重要发展方向。随着计算方法进步,QDπ数据集将持续更新,为人工智能驱动的药物设计提供更强大的基础支撑。这项研究不仅解决了当前MLP训练数据的关键瓶颈,更为建立药物分子模拟的新范式铺平了道路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号