编辑推荐:
为优化分子对接技术,研究人员升级 Gnina 软件,提升其性能,为药物研发提供有力工具。
在药物研发的 “战场” 上,新药物的开发过程就像一场艰难的 “长征”,复杂又耗时。为了找到具有治疗潜力的化合物,科研人员需要评估大量的物质,这不仅成本高昂,而且效率低下。分子对接技术,作为计算机辅助药物设计(CADD)的关键一环,就像是药物研发路上的 “导航仪”,它能通过计算机模拟,预测小分子与蛋白质结合的三维构象,为后续的实验筛选和药物优化提供重要参考。然而,现有的分子对接软件存在诸多不足,比如计算效率不高、模型准确性有待提升等,这就迫切需要一种更强大、更高效的工具来打破这些瓶颈。
匹兹堡大学(University of Pittsburgh)、卡内基梅隆大学(Carnegie Mellon University)、牛津大学(University of Oxford)等机构的研究人员,针对这些问题开展了深入研究,成果发表在《Journal of Cheminformatics》上。他们对开源分子对接软件 Gnina 进行了升级,推出了 Gnina 1.3 版本,为药物研发带来了新的希望。
在研究过程中,研究人员主要运用了以下关键技术方法:一是将深度学习框架由 Caffe 替换为 PyTorch,借助 PyTorch 强大的功能和灵活的特性,提升计算效率并方便后续模型整合;二是在更新的 CrossDocked2020 v1.3 数据集上对卷积神经网络(CNN)评分函数模型进行重新训练,提高模型质量;三是利用知识蒸馏(KD)技术,将多个 “教师” 模型的知识浓缩到一个 “学生” 模型中,减少计算负担的同时维持模型性能;四是为软件添加了共价对接功能,拓展了软件的应用范围 。
下面来看看具体的研究结果:
- Torch 性能:研究人员对 Gnina 的 CNN 模型进行了基准测试,发现将 Caffe 模型替换为 PyTorch 实现的相同模型后,在仅使用 CPU 的模式下,平均对接时间从 129 秒大幅缩短至约 30 秒,且对接姿势预测性能不受影响。这得益于 PyTorch 对多进程的更好支持,在多核心系统中,性能提升可能更显著。
- 更新模型:
- 姿势预测:研究人员通过重新对接和交叉对接两项任务来评估更新模型的性能。重新对接是将配体从复合物结构中移除后再重新对接,交叉对接则模拟真实情况,将配体对接至非同源受体。结果显示,所有重新训练的模型在交叉对接时姿势排名更准确,但重新训练的 redock_default2018 模型在重新对接时姿势排名表现与之前相近。通过知识蒸馏得到的模型虽不如完整的集成模型,但优于单个未蒸馏模型。新的 Gnina 1.3 默认集成模型在交叉对接时,Top1 指标从 37% 提升至 40%,且仅使用 CPU 时平均时间为 23 秒,比 1.0 版本更快。此外,1.3 版本新增的 “fast” 单模型在交叉对接时 TopN 指标仅略有下降,但速度大幅提升,平均仅需 16 秒,与使用 Vina 经验评分函数和使用 GPU 的速度差距极小。
- 虚拟筛选:在 DUD-E 基准测试中,Gnina 1.3 在虚拟筛选方面总体表现优于 1.0 版本。其接收者操作特征曲线下面积(AUC)中位数从 0.75 提升至 0.78,1% 富集因子(EF1%)经归一化后(nEF1%)中位数从 0.25 提升至 0.27,在 102 个靶点中有 68 个靶点的性能得到改善。而 1.3 版本的 “fast” 单模型 AUC 与 1.0 版本相当,但富集因子较差。
- 共价对接:研究人员使用 207 个复合物的基准数据集对 Gnina 1.3 的共价对接功能进行评估。在不同条件下,Gnina 的成功率在 36.2% - 66.6% 之间。使用 Vina 评分函数时,性能明显优于使用 CNN 评分函数,这是因为 CNN 模型未在共价复合物上训练。不过,在该基准测试中,不使用共价对接而仅使用 CNN 评分的效果优于使用 Vina 评分。总体而言,使用 Vina 评分时,Gnina 1.3 的共价对接性能与当前最先进水平相当,但未超越。
研究结论和讨论部分指出,Gnina 1.3 在多个方面对原软件进行了改进。切换到 PyTorch 框架不仅降低了计算成本,还便于与新的深度学习方法集成;重新训练的 CNN 评分函数在交叉对接任务中表现更优,虽然在重新对接任务中性能略有下降,但考虑到药物发现中交叉对接的重要性,这一策略是合理的;知识蒸馏技术的应用使得筛选速度大幅提升,能够更高效地筛选超大化合物库。此外,研究人员还计划在未来为 Gnina 添加对非网格模型的支持,并整合新的深度学习采样方法,进一步提升其性能。
Gnina 1.3 的出现,为药物研发领域带来了更高效、更准确的分子对接工具,为未来的药物研发工作奠定了坚实基础,有望加速新型药物的开发进程,为人类健康事业做出更大贡献。