利用XGBoost生成的概率和深度神经网络提升预测建模能力:构建可靠激酶抑制作用定量结构-活性关系(QSAR)模型的混合方法
《Journal of Molecular Graphics and Modelling》:Enhancing predictive modeling with XGBoost-engineered probabilities and deep neural networks: A hybrid approach for building reliable kinase inhibition QSAR models
【字体:
大
中
小
】
时间:2025年11月10日
来源:Journal of Molecular Graphics and Modelling 3
编辑推荐:
抗肿瘤药物设计中,本研究提出一种XGBoost与深度神经网络(DNN)结合的混合机器学习架构,用于 kinase抑制定量结构-活性关系(QSAR)预测。通过XGBoost处理结构化数据特征生成概率预测,再经DNN优化校准,在40个不同kinase的大数据集(559-5675化合物,400-500种分子描述符)中验证,准确率提升5-14%,有效缓解高维数据过拟合问题,并优于传统RF、SVM等单一模型。模型已开源至GitHub。
在当今癌症治疗领域,新型抗肿瘤疗法正逐渐聚焦于抑制多种蛋白激酶的异常活性。这一趋势凸显了对能够有效调控这些激酶活性的新分子的迫切需求。随着生物医学研究的不断深入,科学家们正在探索更加高效的预测模型,以加速药物研发进程并提高预测的准确性。本文提出了一种特定的混合机器学习(ML)架构,该架构结合了极端梯度提升(XGBoost)作为基础模型,以及深度神经网络(DNN)以提升激酶抑制定量构效关系(QSAR)的预测能力。这一方法利用XGBoost处理结构化数据特征,同时借助DNN对概率估计进行优化,从而增强分类性能。
XGBoost是一种在监督机器学习中表现出强大能力的算法,其优势在于能够有效捕捉特征之间的复杂模式和相互作用,并且在计算资源方面具有较低的消耗。尽管XGBoost在QSAR建模中展现出良好的性能,但在处理高度非线性关系时仍存在一定的局限性。相比之下,深度神经网络能够识别数据中的复杂非线性关系,但其在处理结构化表格数据时往往需要大量的特征工程和参数调优。因此,结合XGBoost与DNN的优势,形成一种混合模型,成为解决上述问题的潜在方案。
本文提出的混合模型通过两个关键步骤实现:首先,XGBoost用于生成预测概率,这些概率被进一步用于特征工程,从而构建出一个更加精准的特征集;其次,该特征集被作为输入提供给DNN,以完成最终的分类任务。DNN在作为校准层使用时,能够将基础模型的预测概率与实际观察结果进行比对,从而提高模型的可靠性。通过这一过程,模型不仅能够更好地理解数据中的内在规律,还能有效提升预测的准确性和泛化能力。
为了验证这一混合模型的有效性,研究者们在40个大型数据集上进行了全面测试,涵盖了多种激酶抑制剂。这些数据集包括了559至5675种化合物,以及400至500个描述符。实验结果显示,与单独使用XGBoost算法以及其他基于描述符的主流机器学习方法(如随机森林和支持向量机)相比,该混合模型在多个数据集上均取得了显著的性能提升。例如,在JAK2、BRAF和TRK-α数据集上,准确率分别提升了14%;在VEGFR2和PIK3Cδ数据集上,准确率提升了13%;而对于其余30个激酶数据集,准确率的提升范围在5%至12%之间。这些结果表明,该混合模型在处理高维数据时具有良好的适应性和鲁棒性。
在进行QSAR建模时,研究者们首先从ChEMBL数据库中收集了与40种致癌蛋白激酶相关的实验生物活性数据。ChEMBL是一个大型且开放访问的数据库,涵盖了大量具有生物活性的化学物质,其中包括实验测定的酶抑制数据以及已批准药物的生物活性信息。该数据库的结构化数据为模型的构建提供了坚实的基础,同时也确保了数据的持续更新和改进。此外,ChEMBL还包含了化合物的二维结构、计算属性(如logP、分子量、Lipinski参数等)以及其他重要的分子特征。
在数据预处理阶段,研究者们对实验生物活性进行了分类标记。根据IC50值(即半数抑制浓度),将抑制活性低于200 nM的化合物标记为活性物质,而高于1000 nM的化合物则被标记为非活性物质。为了提高分类的准确性,研究者们还对中间值的化合物进行了进一步的处理,将其标记为非活性。这种做法有助于在模型用于虚拟筛选时,提升对高活性化合物的识别能力。
数据预处理还包括了分子特征的生成。在进行数学处理和特征选择之前,首先需要从化合物的结构和属性中提取关键的分子特征。这些特征不仅包括化合物的基本物理化学性质,还涵盖了其与激酶相互作用的复杂模式。通过这一过程,研究者们能够构建出一个更加全面和精确的特征空间,为后续的建模工作提供有力支持。
在模型构建过程中,XGBoost被用于初步处理和特征选择,以提取出对激酶抑制具有重要意义的特征。这些特征随后被输入到DNN中,以进一步优化预测性能。DNN在这一架构中起到了校准和细化的作用,使得模型的预测结果更加贴近实际观察数据。这种分层处理方式不仅提高了模型的预测精度,还增强了其在不同数据集上的泛化能力。
此外,研究者们还特别关注了高维QSAR问题中的过拟合现象。在处理大规模数据集时,过拟合是一个常见的挑战,可能导致模型在训练数据上表现良好,但在新数据上的预测能力下降。本文提出的混合模型通过引入XGBoost的预测概率作为DNN的输入,有效缓解了这一问题。这种做法不仅保留了XGBoost在特征选择方面的优势,还利用DNN的非线性建模能力对预测结果进行校准,从而在保持模型复杂度的同时,提高了其稳定性。
在模型的验证过程中,研究者们采用了多种评估指标,包括准确率、召回率、F1分数以及AUC-ROC曲线等。这些指标不仅能够全面衡量模型的性能,还能帮助研究者们识别模型在不同数据集上的表现差异。通过这些评估,研究者们发现该混合模型在多个数据集上均表现出优于传统方法的性能,特别是在处理具有复杂结构和大量描述符的数据时,其优势更加明显。
在实际应用中,该混合模型不仅能够用于构建特定于抗肿瘤药物设计的预测模型,还具有更广泛的适用性,可用于一般的QSAR建模任务。这种灵活性使得该模型在不同研究领域中都能发挥重要作用,尤其是在需要处理高维数据和复杂非线性关系的场景下。此外,该模型的构建方法也为其他类型的生物活性预测提供了新的思路,有助于推动相关领域的研究进展。
为了进一步验证模型的可靠性,研究者们还对模型的预测结果进行了详细的分析。他们发现,该模型在处理不同激酶抑制数据时,能够准确识别出具有高抑制活性的化合物,同时避免了对非活性化合物的误判。这种能力对于药物筛选和开发具有重要意义,因为它可以帮助研究人员更快地识别出潜在的候选药物,从而缩短药物研发周期并降低研发成本。
在实际应用中,该模型的构建过程也体现了科学研究中的严谨性和系统性。研究者们首先对数据进行了全面的清洗和整理,确保了数据的准确性和一致性。随后,他们对数据进行了详细的分析,以确定最适合的特征选择方法和建模策略。这一过程不仅提高了模型的预测能力,还为后续的研究提供了可靠的数据基础。
此外,该模型的成功应用还依赖于团队成员的共同努力。研究者们在各自的领域中发挥了重要作用,从数据收集、特征工程到模型构建和验证,每一个环节都得到了充分的关注和优化。这种协作不仅提高了研究的效率,也确保了最终结果的科学性和实用性。
总的来说,本文提出的混合机器学习架构为激酶抑制的QSAR建模提供了一种新的解决方案。通过结合XGBoost和DNN的优势,该模型在预测准确性和泛化能力方面均表现出色,能够在多种数据集上实现稳定和可靠的预测结果。这一研究成果不仅有助于推动抗肿瘤药物的设计和开发,也为其他类型的生物活性预测提供了有价值的参考。未来的研究可以进一步探索该模型在其他生物活性预测任务中的应用,同时优化模型的参数设置和特征选择策略,以提高其在实际应用中的表现。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号