编辑推荐:
在药物设计领域,将大语言模型(LLMs)整合其中的趋势渐盛,但现有方法难以有效融入三维分子结构信息。研究人员开展了 Token-Mol 相关研究,提出 Token-Mol 模型。结果显示该模型在多项任务中表现优异,推动了 AI 驱动的药物发现进程。
在药物研发的漫长征程中,每一个突破都凝聚着无数科研人员的心血。近年来,人工智能(AI)尤其是深度学习(DL)技术蓬勃发展,为药物开发带来了新的曙光。然而,药物研发之路并非一帆风顺。一方面,获取带注释的数据集成本高昂,这犹如一道难以跨越的鸿沟,严重阻碍了该领域的发展;另一方面,现有的大规模分子预训练模型存在明显缺陷。基于化学语言的模型难以处理对分子物理、化学和生物学特性起关键作用的 3D 结构信息,无法满足涉及 3D 结构的下游任务需求;而基于图的分子预训练模型虽然能有效整合 3D 信息,但主要侧重于学习分子表征以进行属性预测,在分子生成方面表现欠佳,且与通用自然语言处理(NLP)模型的集成面临重重挑战 。因此,开发一种适用于所有药物设计场景、能与现有通用大语言模型轻松集成的预训练模型迫在眉睫。
为了解决这些难题,浙江大学药学院的研究人员展开了深入研究,他们提出了 Token-Mol,这是一种全新的仅标记(token-only)3D 药物设计模型,并将相关研究成果发表在《Nature Communications》上。
研究人员在构建 Token-Mol 时,采用了 Transformer 解码器架构,通过简化分子输入线输入系统(SMILES)和扭转角标记,巧妙地整合了关键的 2D 和 3D 结构信息 。在预训练阶段,运用随机因果掩码策略,结合泊松分布和均匀分布随机掩码训练数据,有效提升了模型的填空生成能力,增强了其对多种下游任务的适应性。此外,为解决仅标记模型对数值敏感性有限的问题,引入了高斯交叉熵(GCE)损失函数,取代传统的交叉熵损失函数。该创新损失函数在训练过程中为每个标记分配权重,助力模型学习数值标记之间的关系。同时,Token-Mol 与其他先进建模技术(如微调、强化学习(RL))具有出色的兼容性,进一步优化了其在下游任务中的性能 。
下面来看具体的研究结果:
- 分子构象生成:分子构象对分子的化学、物理和生物学特性至关重要,是基于结构的药物设计的基础。研究人员使用广泛认可的构象生成基准数据集,将 Token-Mol 与已有的基线模型进行对比。在两个数据集上,Token-Mol 在多项指标上超越了现有最先进的方法,在 COV-P 指标上比 Tora3D 提高了约 11%,在测试集 II 的 COV-P 和 MAT-P 指标上分别比其他模型高出约 24% 和 21%。此外,随着可旋转键数量的增加,Token-Mol 的优势更加明显,且生成速度更快,在测试集 I 上,生成单个分子的所有构象平均仅需 6.37 秒,而 Tora3D 则需要 8.78 秒。
- 分子性质预测:分子表征是分子设计的基础,直接影响下游任务的执行。在分类任务中,Token-Mol 在六个常用分类数据集上表现出色,在某些单任务聚焦数据集(如 BBBP 和 BACE)上达到了最先进的水平。在回归任务中,引入与 Token-Mol 概念相似的仅标记回归 Transformer(RT)进行对比,Token-Mol 在所有任务中均优于 RT,平均性能提升约 30%,在 Aqsol 数据集上的提升更是高达约 50%。通过消融实验表明,GCE 损失函数对 Token-Mol 的性能至关重要,没有 GCE,模型在所有数据集上的性能都会显著下降,平均均方根误差(RMSE)增加约 12% 。
- 口袋基分子生成:在现代药物发现中,基于结构的药物设计至关重要,口袋基分子生成作为关键的下游任务,有助于快速识别高亲和力的配体。研究人员将 Token-Mol 与多个基线模型进行比较,结果显示,Token-Mol 生成的分子在整体分子集上表现令人满意,在有效性、多样性和与训练集及原始配体的相似性方面达到了较好的平衡。在结合亲和力方面,Token-Mol 生成的分子平均约 47.2% 具有更高的亲和力,超过了基线模型。在生成具有良好药物相似性和合成可及性的分子方面,Token-Mol 显著优于基于图的模型,其生成分子的定量估计药物相似性(QED)和合成可及性(SA)得分分别提高了约 11% 和 14%。此外,Token-Mol 生成分子的速度比基于几何深度学习框架的模型快约 35 倍。
- 实际药物设计测试:为评估模型在实际药物设计中的能力,研究人员选择了 8 个来自重要蛋白家族的靶点,模拟现实的药物发现场景进行测试。Token-Mol 在所有靶点上都生成了有效的药物样分子,约 20% 的生成分子满足预设标准,展示了其在实际药物发现场景中识别有前景的先导化合物的能力。针对两个中等表现的靶点进行强化学习优化后,Token-Mol 生成的分子在药物相似性、合成性和亲和力方面表现更优,结构也更加合理。
- 与模型交互能力展示:Token-Mol 的仅标记框架使其能够与前沿的大规模模型技术无缝集成,如提示学习。通过简单的对话用例展示了其在分子性质预测等任务中的交互潜力,用户可以通过插入特定提示与模型进行直接交互,获取不同分子性质的预测结果 。
研究结论与讨论部分指出,Token-Mol 作为首个专为药物设计定制的仅标记、广泛预训练的语言模型,在多个关键药物设计任务中展现出了巨大的潜力。在口袋基分子生成任务中,其结果接近专家模型,在药物相似性和合成性方面取得了最优结果,且能在更短时间内生成分子。在分子构象生成和分子性质预测任务中,也超越了许多现有模型。然而,Token-Mol 仍有改进空间,如仅在三个代表性下游任务中进行了评估,预训练数据中的分子多样性有限,模型参数较多可能限制其部署和应用等 。未来研究将聚焦于扩展训练数据集、开发针对特定下游任务的组件,以及将 Token-Mol 与通用人工智能模型集成,提升其作为研究助手的作用。
总的来说,Token-Mol 1.0 的出现为药物设计领域带来了新的希望,它为统一 AI 药物设计模型提供了一种可行的方法,有望推动基于单一基础模型的全面药物设计的发展,开启药物研发的新篇章,为解决人类健康问题提供更强大的技术支持。