一种用于金属-配体结合预测的综合性机器学习模型:在化学和生物学中的应用

《Journal of Chemical Information and Modeling》:A Comprehensive Machine Learning Model for Metal–Ligand Binding Prediction: Applications in Chemistry and Biology

【字体: 时间:2025年11月03日 来源:Journal of Chemical Information and Modeling 5.3

编辑推荐:

  本研究开发了基于机器学习的D-MPNN模型,利用Chemprop软件处理SMILES分子结构及金属属性,有效预测金属-配体结合常数(log K1)。模型在包含103种金属的广泛数据集上表现优异,外部测试集R2达0.942,MAE为0.834,适用于生物医学、环境科学等领域,并显著提升计算效率。

  在现代化学研究中,金属-配体结合常数的预测对于多个领域都具有重要意义。金属-配体结合常数(通常称为稳定性常数)反映了金属离子与配体之间形成的配合物的稳定性,是理解配合物形成热力学的关键指标。这些常数不仅帮助科学家评估不同金属离子与特定配体之间的相互作用强度,还为药物设计、环境修复以及生物无机化学等领域的研究提供了基础。然而,传统的实验方法,如分光光度法、电位滴定和热量计等,往往需要大量的时间和资源,并且在数据解读上可能存在一定的主观性。因此,发展一种能够快速、准确预测金属-配体结合常数的计算方法变得尤为重要。

为了克服这一挑战,研究人员开发了一种基于机器学习(ML)的模型,该模型利用了开放源代码的Chemprop软件。该模型训练数据来源于IUPAC稳定性常数数据库,涵盖了超过30,000个实验记录的log K1值,涉及超过3500种配体和102种金属离子,涵盖73种元素。相比之前专注于特定金属或配体家族的模型,这种新的ML方法在广度和通用性方面实现了显著突破。它不仅能够预测金属-配体稳定性常数,还能预测配体的质子化常数(KP),从而提供了更全面的金属-配体相互作用信息。

模型的构建基于SMILES(简化分子输入线性输入系统)分子表示法,这是一种将化学分子结构转换为文本形式的标准化方式。SMILES能够有效描述分子的组成和连接关系,为机器学习模型提供了丰富的输入信息。此外,该模型还结合了金属离子的描述符和实验条件,以进一步提升预测的准确性。在训练过程中,研究人员采用了一种基于消息传递神经网络(MPNN)的架构,通过迭代传递分子信息,构建了分子嵌入表示,从而捕捉配体和金属离子之间的复杂非线性关系。

为了验证模型的性能,研究人员在不同的数据子集上进行了测试,包括稳定性常数在不同温度下的数据、质子化常数在不同温度下的数据以及两者的合并数据集。测试结果表明,该模型在多个数据子集上均表现出色,其中最佳模型(M4)在外部测试集上的R2值达到了0.942,均方误差(MAE)为0.834。此外,该模型的预测速度远高于基于密度泛函理论(DFT)的计算方法,能够在几秒钟内完成单个配合物的预测,而DFT计算通常需要数小时甚至数天。这种高效的预测能力使得该模型成为一种理想的高通量筛选工具,适用于大规模化学空间的探索。

模型的性能还被与其他传统的机器学习算法(如线性回归、随机森林回归、K近邻算法、拉索回归和梯度提升回归)进行了比较。结果显示,尽管随机森林回归在传统模型中表现最佳,但其预测精度仍不及D-MPNN模型。此外,模型还与基于SMILES的Transformer架构(如ChemBERTa和MolBERT)进行了对比,结果表明D-MPNN模型在预测准确性上具有明显优势。这些比较不仅证明了D-MPNN模型的优越性,也突显了其在处理复杂化学数据方面的潜力。

在实际应用中,该模型被成功应用于多种场景,包括生物无机化学、重金属修复以及传感器开发。例如,研究人员使用该模型预测了Lanmodulin(LanM)蛋白对不同金属离子的结合亲和力,该蛋白具有四个EF-hand金属结合结构域,对Ln3+和Y3+表现出极高的选择性。模型预测的结合常数与实验数据高度吻合,证明了其在生物系统中的适用性。此外,该模型还被用于预测与MRI成像相关的配体(如N-羧甲基-3,12,18-三氮杂-6,9-二氧杂 bicyclo[12.3.1]十八烷)和用于治疗骨质疏松症的ibandronate金属配合物的结合常数,结果同样显示出良好的预测能力。

尽管该模型在许多情况下表现优异,但研究人员也指出了其存在的局限性。首先,模型在预测高氧化态金属离子(如+4态)时存在一定的误差,这可能是由于这些离子在训练数据中的代表性不足。其次,SMILES表示法缺乏三维结构信息,这限制了模型对配体结构和金属配位环境的捕捉能力,尤其是对于宏环配体等结构复杂的分子。此外,模型在考虑实验条件时,如溶剂效应、离子强度和pH值等方面仍有待完善,这些因素在实际实验中对稳定性常数有显著影响。最后,实验数据的质量差异也可能导致模型预测的偏差,特别是在不同测量方法和数据报告方式之间存在差异的情况下。

为了解决这些局限性,研究人员提出了一些改进方向。例如,通过增加高氧化态金属离子的数据,以及引入三维结构和配位信息的表示方法,可以进一步提升模型的预测能力。此外,结合环境参数(如溶剂、pH和离子强度)到模型中,有助于提高模型在实际应用中的准确性。同时,利用生成式人工智能(如生成模型)进行配体设计,结合自动合成平台,可以加速新型配体的发现和优化,从而提高金属提取和环境修复等应用的效率。

总的来说,这项研究开发了一种具有广泛适用性的机器学习模型,能够快速、准确地预测金属-配体结合常数,为化学、生物和环境科学等多个领域提供了重要的工具。该模型不仅提升了预测的效率,还为未来的研究和应用打开了新的可能性,推动了计算化学在实际问题解决中的应用。随着数据的不断丰富和技术的进一步发展,该模型有望在更广泛的领域中发挥更大的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号