基于图神经网络的马尔可夫分子图生成模型MOLGMP:突破药物发现中的化学空间探索瓶颈

【字体: 时间:2025年07月26日 来源:Neurocomputing 5.5

编辑推荐:

  为解决传统分子生成技术探索空间有限的问题,研究人员开发了基于图神经网络(GNN)的马尔可夫过程模型MOLGMP。该模型采用广度优先搜索(BFS)排序策略和模块化架构,在ZINC和Polymers数据集上实现了无条件和条件分子生成,在不使用化合价掩码(valency masks)的情况下取得了最先进的唯一性和有效性结果,为药物发现提供了高效的化学空间探索工具。

  

在药物研发领域,探索广阔的化学空间寻找潜在药物分子犹如大海捞针。据估计,可能的分子数量高达1060量级,而现有最大数据库仅包含约500万种分子,其中获批药物更是凤毛麟角。传统方法依赖于已知化合物的修饰,虽然可靠但探索范围有限。机器学习技术为这一困境带来了转机,特别是分子生成领域近年来取得多项突破性进展。

早期分子生成主要基于SMILES字符串表示法,但这种方法存在明显缺陷:结构相似的分子可能在潜在空间中相距甚远。随后发展的图表示方法虽然有所改进,但仍面临诸多挑战:现有模型大多局限于训练集中子结构的重组,难以理解化学有效性规则;强化学习(RL)方法无法观察完整的分子图结构信息;而扩散模型(DMs)等新技术也存在信息丢失等问题。

针对这些挑战,研究人员开发了MOLGMP(MOLecular Generative Markovian Process)模型。这一创新性的序列化方法基于图神经网络(GNN),通过马尔可夫过程实现分子生成,相关成果发表在《Neurocomputing》期刊上。研究团队采用了模块化架构设计,将每个生成步骤分解为三个子步骤:添加新原子、连接化学键以及可能形成环状结构的额外边连接。关键技术包括:1)基于BFS排序的序列生成策略;2)三个独立的GNN模块分别处理不同子步骤;3)动态构建训练集的马尔可夫过程采样方法;4)用于条件生成的属性评分整合机制;5)在ZINC和Polymers数据集上的多指标评估体系。

研究结果显示,在ZINC数据集上,MOLGMP的生成有效性(Validity)达到99.87%,唯一性(Uniqueness)99.97%,新颖性(Novelty)90.23%,综合VUN得分0.9009,显著优于CharRNN、AAE、VAE等传统方法。特别值得注意的是,该模型在不使用化合价掩码的情况下就实现了如此高的有效性,表明其确实学习到了化学规则。在聚合物数据集上,MOLGMP同样表现出色,唯一性达到99.9%,验证了其处理大分子的能力。

条件生成实验进一步展示了MOLGMP的独特优势。模型能够生成符合特定属性要求(如logP、QED等)的分子,甚至在训练集覆盖范围之外的属性值区域也能产生合理分子。例如,成功生成了logP值超过15的分子(数据集最大logP仅为5),以及QED评分超过0.948的分子。

消融研究证实了模型设计的关键要素:包含分子大小和访问状态等拓扑特征使有效性从93.45%提升至99.87%。与其他方法相比,MOLGMP在内部多样性(IntDiv)指标上表现最佳(0.8527),表明其生成分子的结构丰富度更高。

这项研究的意义在于:1)提出了一种新颖的分子生成范式,将马尔可夫过程与GNN相结合;2)开发了灵活的模块化架构,各GNN组件可独立训练和优化;3)实现了不依赖化合价掩码的高有效性生成,证明模型真正理解了化学规则;4)拓展了条件分子生成的能力边界;5)为处理大分子提供了可行方案。这些突破为药物发现、材料设计等领域提供了强有力的工具,特别是其处理大分子的潜力,为聚合物、蛋白质结构等复杂分子的生成研究开辟了新途径。未来研究方向包括开发分层版本以更好地处理超大分子,以及探索更多样化的化学空间导航策略。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号