编辑推荐:
为解决药物研发难题,研究人员开展 CMD-GEN 框架研究,成果显著,助力药物设计。
在人类与疾病的漫长斗争中,药物研发始终是关键的一环。传统的药物发现方式,如偶然发现和经验设计,早已无法满足现代社会对高效、精准药物的迫切需求。随着科技的进步,计算化学和生物信息学虽然为先导化合物的理性设计带来了新的希望,但生物系统的极端复杂性使得在物理模型和经验公式方面难以实现精确简化,不仅降低了研发效率,还可能产生误导性的结果。
在此背景下,人工智能的崛起为药物研发领域注入了新的活力。深度学习技术催生的各种模型,能够从丰富的药物数据中学习并自主决策,宛如经验丰富的药物设计专家。然而,现有的深度生成模型在药物研发应用中仍存在诸多问题。例如,许多方法受限于有限的药物数据,导致生成的分子性质欠佳、构象不稳定,并且在设计选择性抑制剂时往往力不从心。
为了攻克这些难题,四川大学华西医院生物治疗国家重点实验室等机构的研究人员开展了深入研究。他们提出了一种名为粗粒度和多维数据驱动分子生成(Coarse-grained and Multi-dimensional Data-driven molecular generation,CMD-GEN)的创新框架,相关成果发表在《Communications Biology》上。
研究人员在开展此项研究时,运用了多种关键技术方法。在数据集准备方面,采用 CrossDock2020 和 ChEMBL 31 数据库中的数据,并进行了严格的数据筛选和预处理。在模型构建中,利用扩展的等变去噪扩散概率模型进行口袋条件下的三维药效团采样;基于 Transformer 的编码器 - 解码器架构结合门控条件机制和药效团约束,实现分子生成;通过药效团对齐生成分子结合构象,并运用点云匹配算法处理特殊的药物设计任务。
下面来看看具体的研究结果:
- CMD-GEN 的模型架构:CMD-GEN 主要包含口袋条件下的三维药效团采样模块、基于门控条件机制和药效团约束的分子生成模块(GCPG)以及基于药效团对齐的构象预测模块。这些模块相互协作,共同完成从蛋白质口袋信息到具有生物活性的药物分子的生成过程。
- 口袋条件下药效团采样的性能:在测试集上,无论采用全原子还是 Cα原子来表示口袋残基,该模块采样得到的三维药效团类型分布都与训练集高度吻合,并且能够合理扩展药效团生成的空间范围,同时保持与口袋的适当距离。在实际应用中,针对 PARP1、USP1 和 ATM 这三个癌症药物开发靶点的研究发现,采样得到的药效团特征与原始晶体复合物中配体的结合模式相似,表明该采样方法具有重要意义。
- GCPG 模块的性能:与其他基于 SMILES 的生成方法相比,GCPG 模块在新颖性和可用分子比例方面表现出色。例如,GCPG_noC_EGAT 模块在四个关键指标上优于原始的 PGMG,可用分子比例提高了 1.5%。此外,GCPG 模块能够通过门控条件机制有效控制生成分子的物理化学性质,使其更符合药物设计的要求。
- 基于 CMD-GEN 的特定靶点结构基础药物设计:以 PARP1、USP1 和 ATM 为研究对象,将 CMD-GEN 与其他先进模型进行对比。结果显示,CMD-GEN (R2) 模型在控制分子的类药性质方面表现出色,生成分子的 QED 得分始终保持较高水平;CMD-GEN (R1) 模型在微调对接分数后,得分分布超过其他模型。同时,CMD-GEN 能够有效避免生成过大或多环结构的分子,降低潜在的安全风险。
- CMD-GEN 可生成具有物理意义的分子结合构象:通过计算生成构象与对接构象之间的均方根偏差(RMSD),发现 CMD-GEN 模型在三个靶点上均表现良好,CMD-GEN (R2) 模型生成的构象在小于 2 ? 的范围内超过 75%,表明该模型能够生成具有物理意义的结合构象。
- CMD-GEN 模型分子生成速度快:由于其分层设计,CMD-GEN 模型在运行时间上具有显著优势。与基于流的模型 ResGen 相比,CMD-GEN 生成一个分子平均仅需 1.2 秒,而 ResGen 则需要约 50 - 70 秒,这使得 CMD-GEN 在药物设计过程中具有更广泛的应用前景。
- CMD-GEN 可用于开发选择性抑制剂分子:以 PARP1 和 PARP2 选择性抑制剂的开发为例,CMD-GEN 通过整合核心药效团特征和 “选择性” 药效团点,能够有效提高分子与靶点相互作用的特异性。在实际应用中,通过该模型设计并合成的多个分子对 PARP1 表现出良好的抑制活性和选择性,其中 Y5 的选择性比值超过 787 倍。
研究结论和讨论部分指出,CMD-GEN 框架通过粗粒度药效团点连接了三维复合物和二维类药分子数据,有效解决了当前生成模型中分子构象不稳定的问题。该模型在分子生成效率、类药性质保持以及复杂药物设计任务方面表现优异,湿实验也证实了其在药物开发中的有效性。然而,CMD-GEN 在面对静态结构的局限性以及部分靶点蛋白只有无配体构象等问题时,仍有待进一步改进。未来,研究人员将考虑在框架中融入更多领域知识,如口袋动力学,为药物设计模型的发展提供新的思路和机遇。总之,CMD-GEN 为药物研发提供了一种强大的工具,拓宽了药物设计模型的范围,具有重要的理论和实践意义。