QeMFi:多保真度分子量子化学性质数据集,开启量子化学研究新征程

【字体: 时间:2025年02月04日 来源:Scientific Data 5.8

编辑推荐:

  在机器学习(ML)与量子化学(QC)研究中,缺乏多保真度数据集用于基准测试阻碍相关研究。研究人员创建 QeMFi 数据集,含 5 种保真度的多种 QC 性质及计算时间。这为 ML-QC 领域提供了重要资源,推动多保真度方法发展。

  在当今科学研究的前沿领域,量子化学(QC)与机器学习(ML)的交叉融合正掀起一场变革。随着这两个领域的飞速发展,利用 ML 模型预测 QC 性质成为研究热点,其能大幅缩短预测时间,为科研人员探索分子世界提供了强大工具。然而,前行的道路并非一帆风顺。现有用于测试 ML 模型的基准数据集,如 MD17、QM7、QM9 等,大多仅在单一 QC 方法水平(即保真度)上进行计算,难以满足复杂多变的研究需求。虽然多保真度 ML(MFML)方法已崭露头角,它能利用不同保真度的数据训练模型,在准确性上超越单保真度方法,在预测固体带隙、激发能等方面展现出巨大潜力,但却面临着缺乏多样化多保真度数据集用于基准测试的困境。这一困境就像一道横亘在科研人员面前的高墙,严重阻碍了 MFML 方法的深入研究与广泛应用。
为了攻克这一难题,来自德国伍珀塔尔大学(University of Wuppertal)的研究人员 Vivin Vinod 和 Peter Zaspel 勇挑重担,展开了深入研究。他们的研究成果发表在《Scientific Data》上,为该领域带来了新的曙光。

研究人员巧妙地以 WS22 数据库为基础,构建了全新的量子化学多保真度(QeMFi)数据集。该数据集涵盖了 9 种分子,包括尿素、丙烯醛、丙氨酸等,针对每种分子选取 15,000 个几何构型,总共包含 135,000 个单点几何构型数据。在计算这些数据的 QC 性质时,研究人员采用了 ORCA (5.0.1) 量子化学计算软件包,在含时密度泛函理论(TD-DFT)水平下,使用 CAM-B3LYP 泛函,并选取了 5 种不同大小的基组(STO-3G、3-21G、6-31G、def2-SVP、def2-TZVP),从而得到 5 种不同保真度的数据。这些数据不仅包含了分子的笛卡尔坐标、原子序数、自洽场(SCF)基态能量等基本信息,还涵盖了垂直激发能(1 - 10)、跃迁偶极矩、振子强度、分子偶极矩(核贡献与电子贡献分开记录)、转动光谱数据等丰富的 QC 性质。更为重要的是,数据集还提供了每种分子在每个保真度下的平均计算时间,这一关键信息为评估 MFML 模型的时间效益提供了有力依据。

在研究过程中,研究人员运用了多种关键技术方法。首先是数据采样技术,从 WS22 数据库的每种分子的 120,000 个几何构型中均匀抽取 15,000 个,保证了所取构型能充分代表分子的各种构象。其次,利用 ORCA 软件进行量子化学计算,获取丰富的 QC 性质数据。此外,采用核岭回归(KRR)方法构建 ML 模型,并运用 MFML 和优化的 MFML(o - MFML)方法进行多保真度模型的训练与测试,通过计算平均绝对误差(MAE)来评估模型的准确性。

下面来详细看看研究结果。在验证 QeMFi 数据集对分子构象空间的覆盖情况时,研究人员利用均匀流形近似和投影(UMAPs)技术对分子进行降维可视化分析。结果显示,QeMFi 数据集所采样的几何构型能够均匀覆盖 WS22 数据库的整个化学空间,这意味着即使仅选取部分构型,也能为 ML 模型提供相同水平的化学复杂性信息。

在单分子基准测试方面,研究人员以 SMA 和 o - HBDI 分子为例进行深入研究。对于 SMA 分子的 SCF 基态能量预测,通过对多保真度数据的分布、各保真度与目标保真度(TZVP)的平均绝对差异以及能量散点图等初步分析,发现保真度具有系统的层次性,符合预期假设。MFML 和 o - MFML 模型的学习曲线表明,添加较低保真度数据能系统地降低误差,且两种模型在预测准确性上表现相似。在 MAE 与生成训练数据时间的关系图中,使用较低保真度(如 STO3G)作为基线的 o - MFML 模型,相比单保真度 KRR 模型,在保证相似准确性的前提下,时间成本可降低约 4 倍,充分展示了多保真度模型的优势。

对于 o - HBDI 分子的第一垂直激发能预测,初步分析发现各保真度之间存在明显差异,且 STO3G 保真度的数据分布较其他保真度更分散。学习曲线显示,添加较低保真度数据可降低 MAE,但 STO3G 保真度对大训练样本量模型准确性的提升作用不明显,不过 o - MFML 方法能有效改善这一问题。在 MAE 与生成训练数据时间的关系图中,除 STO3G 基线模型外,其他基线保真度模型仍能体现出时间效益的提升。

在对数据集的累积使用测试中,研究人员从 QeMFi 数据集中每种分子随机选取 1,500 个几何构型,构建多保真度训练数据、验证集和测试集。结果表明,MFML 和 o - MFML 模型的学习曲线均呈下降趋势,添加更低保真度数据可降低 MAE,且 MFML 模型能准确预测 SCF 基态能量。在 MAE 与生成训练数据时间的关系图中,使用 STO3G 基线保真度可使时间成本降低约 6 倍。

综上所述,QeMFi 数据集的诞生意义重大。它为量子化学与机器学习交叉领域提供了宝贵的资源,使得研究人员能够更全面、深入地评估 MFML 方法。通过提供丰富的多保真度数据和计算时间信息,QeMFi 数据集为科研人员在该领域的研究开辟了新的道路,有助于推动 MFML 方法的进一步发展,提升其在预测量子化学性质方面的准确性和效率,为未来的量子化学研究奠定了坚实基础。这一研究成果就像一把钥匙,打开了多保真度方法在量子化学领域广泛应用的大门,让科研人员能够更深入地探索分子世界的奥秘,为相关领域的发展注入了新的活力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号