基于机器学习的有机酸pKa预测模型构建与性能评估:结合DFT计算和结构描述符的创新方法

【字体: 时间:2025年08月10日 来源:Artificial Intelligence Chemistry

编辑推荐:

  为解决有机酸pKa值预测精度不足和计算成本高的问题,研究人员开发了四种树基机器学习模型(RF/ExTr/HGBoost/GBoost),结合DFT计算和SPOC描述符,在1268分子数据集上实现MAE 1.41的预测性能。该开源模型为药物设计提供了高效透明的预测工具。

  

12345678977654321

酸碱解离常数pKa是决定药物溶解度和膜渗透性的关键参数,但传统实验测定方法耗时耗力,量子化学计算又面临精度与效率难以兼顾的困境。当前商用预测软件如QupKake(MAE=0.67)虽精度高但存在黑箱问题,而纯DFT方法需三次能量计算导致效率低下。这一矛盾在药物研发领域尤为突出——研究人员既需要快速评估候选化合物的电离特性,又要求模型能解释预测结果的物理化学依据。

针对这一挑战,喀麦隆马鲁阿大学(University of Maroua)物理系Juda Baikété团队在《Artificial Intelligence Chemistry》发表研究,创新性地将密度泛函理论(DFT)计算的量子化学描述符与RDKit生成的结构参数相结合,通过特征工程筛选出15个关键描述符(如HOMO能量、Gibbs自由能校正等),并系统比较了四种树基算法性能。研究发现,极端随机树(ExTr)模型在保持计算效率的同时,对1268个有机分子实现MAE 1.41的预测精度,其开源特性为学术研究提供了可验证的基准模型。

研究采用多技术联用策略:1)通过Gaussian 16计算24个DFT描述符,结合RDKit生成4082个结构参数;2)使用Lazypredict库初筛算法,经GridSearchCV优化超参数;3)基于基尼重要性指标和Pearson相关性(|r|<0.85)降维至15个核心描述符;4)采用SAMPL6/7盲测集验证泛化能力。

分子描述符设计

研究创新性地提出SPOC(Structural and Organic Parameter)描述符体系,其中DFT衍生的HOMO能量和最大局部电荷等参数贡献30%特征重要性,有效捕捉π共轭体系特性;而RDKit的MolLogP和氢键受体数等参数则主导基础趋势预测。这种混合策略在保持物理可解释性的同时,将单分子DFT计算时间控制在分钟级。

模型性能验证

在测试集上,ExTr以MAE 1.41显著优于其他算法(GBoost 1.54,RF 1.56)。误差分析显示95%预测值落在±2.27 pKa单位区间,且训练/测试集性能差异<3%,表明模型未过拟合。特征重要性排序揭示Gibbs自由能校正(DFT)与MinEStateIndex(拓扑)的协同作用,为理解预测机制提供线索。

跨数据集评估

在SAMPL7挑战中,ExTr(MAE 2.21)虽不及冠军EC-RISM(0.53),但优于纯DFT方法如M05-2X SMD(2.28)。值得注意的是,模型对含杂原子分子(如磷氧酸)预测偏差较大,反映出现有描述符对特殊官能团的覆盖不足。

该研究确立了树模型在pKa预测中的实用价值:ExTr通过随机分割策略降低方差,其239的最大深度设置(见表1)有效平衡了复杂度与泛化能力。相比需要万级训练数据的图神经网络(GNN),该模型仅需千级样本即可达到可比精度(MAE 1.41 vs 1.37),为资源有限的研究组提供替代方案。作者指出,未来通过引入显式溶剂化模型和扩大含氮/磷化合物的训练集,有望将MAE降至1.0以下。这项成果不仅为ADMET(吸收、分布、代谢、排泄和毒性)研究提供新工具,其特征选择方法论更可推广至其他量子化学-机器学习混合研究领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号