3DToMolo:开启分子设计新时代,基于文本 - 3D 空间的分子优化创新框架

【字体: 时间:2025年05月08日 来源:BMC Bioinformatics 2.9

编辑推荐:

  在分子优化研究中,传统方法难以兼顾 2D 和 3D 特征及复杂目标。研究人员开展 “基于文本 - 3D 空间的分子优化” 研究,提出 3DToMolo 框架。实验显示其优化性能优异,能发现新分子。该研究推动深度学习发展,革新分子设计策略。

  在药物研发和材料设计领域,分子优化至关重要。它旨在通过化学修饰,提升候选分子的特定属性,使其满足严格的结构、物理和电化学标准,同时保留便于合成的关键结构特征。然而,传统方法主要依赖药物化学家的专业知识,通过片段筛选或合成来进行分子优化,这种方式存在可扩展性差和自动化程度低的问题。
近年来,计算辅助药物研发兴起,深度学习技术如基于潜在空间的生成模型和蒙特卡洛树搜索(MCTS)算法被广泛应用。这些方法虽推动了分子发现领域的发展,但仍存在诸多不足。例如,传统的基于编码器 - 解码器的从头分子生成方法在分子优化任务中,难以有效学习优化前后分子的分布差异,容易出现多样性崩溃问题;强化学习等隐式搜索方法则依赖专家设计的优化路径,缺乏灵活性,难以捕捉分子优化中复杂多样的可能性。并且,现有方法普遍难以同时兼顾 2D 分子特征(如原子类型和键拓扑结构)和 3D 构象结构,无法满足复杂的优化目标。

为解决这些难题,中国科学院信息工程研究所、华为技术有限公司等机构的研究人员开展了一项重要研究。他们提出了一种创新的方法,将分子优化问题转化为多模态引导优化任务,并构建了名为 3DToMolo 的文本 - 结构对齐对称扩散框架。

研究人员在研究过程中运用了多种关键技术方法。首先,利用 PCQM4Mv2 数据集预训练无条件扩散模型,以捕捉复杂的数据分布并生成新的分子结构;使用 MoleculeSTM 数据集训练文本 - 分子模型,同时从 PubchemQC 提取分子的 3D 信息和能量相关值,增强化学空间与语义空间的对齐。其次,采用 2D - 3D 联合扩散模型,通过在扩散过程中引入基于对比损失的细粒度提示控制,实现文本提示与 2D - 3D 联合表示的对齐。此外,借助 Clip 映射建立文本提示与分子结构的联系,并通过调整去噪步骤、引入多身份对齐和流形约束等策略,优化分子结构。

下面来看具体的研究结果:

  • 文本 - 结构优化的定义:研究人员将分子优化任务定义为,在文本提示 y 的引导下,对已知 2D 和 3D 结构的分子或分子片段M0进行原子类型、3D 位置及键关系的修改,生成更符合文本描述的分子M1。通过引入一系列含噪状态Mt,利用扩散模型的去噪过程实现分子优化。
  • 文本 - 结构扩散模型的开发:3DToMolo 分为预训练和下游优化两个阶段。在预训练阶段,一方面实现文本描述与化学结构的对齐,另一方面启动无条件 2D + 3D 分子生成模型。实验结果表明,3DToMolo 在分子检索和属性预测任务上表现出色,在 MoleculeNet 基准测试的八个单模态二元分类数据集中,在五个任务上优于其他方法,在其余三个任务上与领先的基线方法相当。
  • 物理化学性质提示下的灵活分子优化:研究人员设计了多种优化任务,涵盖分子的能量和结构属性,如 HOMO(最高占据分子轨道)、LUMO(最低未占据分子轨道)、极性、水溶性等。实验结果显示,3DToMolo 在大多数任务中命中率显著高于其他方法。通过可视化分析发现,3DToMolo 通过添加、去除或替换功能基团等方式实现分子优化,在多目标优化任务中表现良好。
  • 结构约束下的提示驱动分子优化:在一些情况下,需要保留特定的子结构。研究人员以电解质分子为例,在保护分子骨架的前提下,优化分子的氧化还原电位等性质。实验表明,3DToMolo 在这类任务中表现优异,能有效避免 GPT - 3.5 等模型出现的生成无效分子的问题。在内部区域分子优化任务中,3DToMolo 也展现出强大的能力,能够生成满足特定立体化学要求的分子结构。
  • 指定位点的硬编码分子优化:针对在指定位点进行精确优化的难题,研究人员以青霉素和雷公藤内酯等药物分子为例进行研究。结果显示,3DToMolo 能够根据文本提示在指定位点进行优化,生成符合要求的分子结构,且在化学合理性和与已知分子的相似性方面表现出色,优于 GPT - 3.5。

研究结论和讨论部分指出,3DToMolo 整合了分子图、3D 构象和文本描述三种模态,结合 2D + 3D 扩散模型,实现了高效的分子结构优化。该框架不仅能在分子内部区域进行灵活优化,还能在指定周边区域进行硬编码优化,这得益于其对 3D 位置信息的精细处理。此外,3DToMolo 在数据效率方面具有优势,能够利用大量未标记的结构数据进行训练。不过,研究也存在一些待探索的方向,如利用对抗匹配进一步挖掘多模态信息的潜力,改进文本 - 分子模型的训练方式,以及解决生成分子的合成可行性问题等。总体而言,3DToMolo 为分子设计领域带来了新的思路和方法,推动了深度学习在分子优化中的应用,有望加速新型药物和材料的研发进程,具有重要的理论和实践意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号