编辑推荐:
为提升分子性质预测精度,研究人员构建 Deep-CBN 框架,其在多数据集表现优异,助力药物发现。
在药物研发和计算化学的奇妙世界里,准确预测分子性质就像拥有一把神奇钥匙,能打开发现有效药物的大门,极大地加速治疗药物的开发进程。然而,传统机器学习方法在面对高维的分子数据时,就像行动迟缓的老人,被手动特征工程的重担压得举步维艰;而现有的深度学习方法,也难以精准捕捉复杂的分子结构,这就好比戴着模糊的眼镜看东西,总是差那么一点清晰度。这些难题严重阻碍了药物研发的步伐,迫切需要新的解决方案。
在此背景下,来自伊朗基础科学高级研究所(Institute for Advanced Studies in Basic Sciences, IASBS)计算机科学与信息技术系以及德黑兰大学跨学科科学与技术学院生命科学工程学院的研究人员 Ali Kianfar、Parvin Razzaghi 和 Zahra Asgari 开展了深入研究。他们提出了一种名为 Deep-CBN 的全新框架,相关研究成果发表在《Scientific Reports》上。这一框架就像一位智慧的领航员,为分子性质预测指明了新方向,有望显著加速药物发现进程。
研究人员在构建 Deep-CBN 框架时,采用了一系列先进的技术方法。首先,利用卷积神经网络(Convolutional Neural Networks, CNN)从 SMILES 字符串(一种用于表示分子结构的字符串表示法)中提取局部特征,就像在分子结构的 “海洋” 里精准捕捞重要信息。接着,引入 BiFormer 注意力机制,结合前向 - 前向(forward-forward)算法,捕捉全局上下文信息,进一步优化特征表示。最后,通过反向传播(backpropagation)对预测子网进行微调,让模型更加精准地做出预测。
在研究结果方面,研究人员使用了 11 个涵盖多个科学领域的数据集进行模型评估。在分类任务中,以 ClinTox 数据集为例,Deep-CBN 的受试者工作特征曲线下面积(ROC-AUC)达到了 0.992,几乎接近完美,仅略微超过 ChemBFN 的 0.991。在 Tox21、HIV 和 MUV 数据集上,Deep-CBN 的 ROC-AUC 值分别为 0.924、0.973 和 0.998,在这些领域名列前茅。虽然在 BACE、BBBP 和 SIDER 数据集上,Deep-CBN 的 ROC-AUC 得分相对较低,但总体平均 ROC-AUC 为 0.894,仍展现出与其他领先模型竞争的实力。在回归任务中,Deep-CBN 在 FreeSolv 数据集上获得了最低的均方根误差(RMSE)1.047,在 QM7 数据集上达到了最低的平均绝对误差(MAE)57.9,这表明 Deep-CBN 在预测分子性质方面具有较高的准确性。
研究人员还进行了消融实验,通过去掉模型中的某些组件或替换关键模块,来探究各部分对模型性能的影响。结果表明,每个组件,包括 CNN 特征提取、BiFormer 注意力机制和多阶段训练,都对提高分类准确率和模型稳定性有着重要作用。此外,研究人员对 ClinTox 数据集中的注意力权重进行可视化分析,发现模型在预测化合物是否被 FDA 批准时,对分子序列的前 10 - 20 个标记位置给予了较高关注,同时也会综合考虑后续位置的信息,这为理解模型的决策过程提供了直观依据。
综上所述,Deep-CBN 这一创新的深度学习架构,将 CNN 与 BiFormer 注意力机制相结合,并运用前向 - 前向算法和反向传播进行训练,在多种基准数据集上展现出卓越的性能,为分子性质预测提供了强大的工具。然而,该模型也存在一些局限性,例如训练过程需要大量计算资源,在更广泛化学领域的适用性还需进一步验证。未来,研究人员计划扩展该方法以考虑三维分子结构,优化模型以降低计算需求,并探索其在实际药物发现中的应用价值。Deep-CBN 的出现,无疑是分子性质预测领域的重要突破,为加速计算化学和药物发现研究提供了新的契机,有望在未来的药物研发中发挥关键作用,帮助科学家们更快地找到治疗各种疾病的有效药物。