巧用图神经网络属性预测器,精准生成理想分子结构

【字体: 时间:2025年05月09日 来源:Nature Communications 14.7

编辑推荐:

  在计算材料科学领域,现有材料和分子研究方法存在计算成本高、覆盖范围窄、机器学习模型泛化性差等问题。研究人员开展利用图神经网络(GNN)属性预测器生成分子的研究,结果显示该方法能有效生成目标属性分子,且多样性更好,有助于加速功能材料的设计与发现。

  在材料科学和药物研发的广阔领域中,寻找具有特定性能的材料结构和化合物,就如同在浩渺星空中寻找那几颗最亮的星星,充满挑战。过去,传统的计算材料发现方法,像是依靠密度泛函理论(DFT)和分子动力学去遍历大型材料数据库,虽然在一些情况下取得了成功,但这一过程计算成本极高,而且能探索到的材料范围仅仅是所有可能材料中的一小部分,就像在广袤沙漠中只探索了一小片绿洲。
随着机器学习(ML)技术的兴起,基于 ML 的属性预测方法逐渐崭露头角。然而,这些方法也并非十全十美,它们在面对未曾见过的数据时,泛化能力较差,就像是只会在熟悉道路上行驶的汽车,一旦驶入陌生路段就迷失方向。在这样的背景下,材料和分子生成领域开始蓬勃发展,研究人员期望能探索所有可能材料的广阔空间。但现有的生成方法仍存在不足,因此,开发更高效、精准的分子生成方法迫在眉睫。

来自多伦多大学的研究人员 Félix Therrien、Edward H. Sargent 和 Oleksandr Voznyy 勇敢地迎接了这一挑战。他们开展了一项利用图神经网络(Graph Neural Networks,GNN)属性预测器作为分子生成器的研究。研究结果令人振奋,他们成功地证明了通过巧妙地约束分子表示,无需额外训练,就能将预测属性的 GNN 转变为多样化的条件生成器。这一成果就像是给材料科学和药物研发领域注入了一针强心剂,为加速功能材料的设计和发现带来了新的希望,相关研究成果发表在《Nature Communications》上。

研究人员在开展这项研究时,用到了几个关键技术方法。首先,训练 GNN 模型时,采用分子图的显式表示,包括邻接矩阵和特征矩阵。为确保邻接矩阵符合化学规则,使用了倾斜舍入函数,并通过损失函数对原子价态进行约束。其次,利用已训练的 GNN 模型,通过梯度上升优化输入的分子图,从而生成具有特定属性的分子。在验证生成分子的属性时,使用了密度泛函理论(DFT)计算16

下面来看具体的研究结果:

  • 理论基础与工作流程概述:研究人员的方法可应用于任何使用分子图的 GNN 架构。通过对邻接矩阵和特征向量的特殊构建和约束,确保优化后的输入为有效分子。邻接矩阵由权重向量构建,通过倾斜舍入函数保证其符合化学规则;特征向量则根据邻接矩阵中原子的价态来定义原子类型1
  • 能隙靶向:研究人员训练了一个简单的 GNN 代理模型,以生成具有特定最高占据分子轨道(HOMO)和最低未占据分子轨道(LUMO)能隙(μ)的分子。生成的分子经代理模型预测在目标范围内,但 DFT 计算表明其能隙分布与目标有一定差异。与 JANUS(一种基于遗传算法的方法)相比,研究人员的方法(DIDgen)在生成目标能隙分子的性能上几乎与之匹配或更优,且生成分子的多样性更好23
  • logP 靶向:为了研究分子的亲脂性,研究人员训练了专门的 GNN(CrippenNet)来靶向特定的辛醇 - 水分配系数(logP)值。实验结果显示,DIDgen 生成的分子在多样性方面优于其他方法。在使用代理模型预测 logP 时,DIDgen 的性能比其他方法高出数倍,但在成功率上不如直接使用真实经验模型的方法45

在研究结论和讨论部分,研究人员指出,像他们这样使用学习代理的生成方法,很大程度上依赖于代理模型的性能和泛化能力。虽然基于神谕(oracle,即真实经验模型)的方法在某些情况下成功率更高,但对于许多实际应用,由于相关属性计算成本高昂,最终还是会依赖于 ML 代理模型。此外,通过他们的方法反转预测 ML 模型,可以发现模型的弱点,生成的分子还可用于获取分布外数据,对 ML 模型进行基准测试和微调。研究人员还公开了包含 1617 个生成分子的数据集,为后续研究提供了宝贵资源。总体而言,该研究为分子生成和材料设计开辟了新途径,有望推动相关领域的快速发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号