利用堆叠集成学习框架,实现基于可解释性AI的流感神经氨酸酶抑制剂预测

《Computers in Biology and Medicine》:Explainable AI-driven prediction of influenza neuraminidase inhibitors using a stacked ensemble-learning framework

【字体: 时间:2025年11月22日 来源:Computers in Biology and Medicine 6.3

编辑推荐:

  本研究开发了一种基于堆叠框架的高效计算方法XAI-NAI,通过整合21个分子描述符和6种机器学习模型生成126维特征向量,结合双重特征选择优化模型,显著提升神经氨酸酶抑制剂活性预测性能(R2=0.750),并成功应用于FDA批准药物的重定位筛选,为抗流感药物研发提供新工具。

  在当前全球公共卫生领域,流感病毒仍然是一个主要的威胁。这种病毒不仅导致了广泛的呼吸道感染,还可能引发严重的并发症,甚至危及生命。尤其是对于65岁以上的老年人群体,流感的感染可能导致更高的死亡率。因此,开发新型、高效且特异性强的抗流感药物成为一项迫切的任务。传统的抗病毒药物,如神经氨酸酶抑制剂(NAIs),在过去的几十年中被广泛使用,但它们的疗效正受到不断出现的耐药性变异和病毒亚型的挑战。为了应对这一问题,研究人员开始探索更先进的计算方法,以提高新药发现的效率和准确性。

神经氨酸酶(NA)是流感病毒表面的一种关键蛋白,它在病毒的生命周期中扮演着至关重要的角色。NA的主要功能是通过切割宿主细胞表面的唾液酸与下面糖基结构之间的α-酮苷键,帮助新生病毒颗粒从感染的细胞中释放出来,从而促进病毒的传播。除了其酶活性,NA还能辅助血凝素(HA)通过结合唾液酸基团,增强病毒进入宿主细胞的能力。因此,NA成为抗流感药物设计的重要靶点。目前,针对NA的抑制剂主要包括奥司他韦、扎那米韦、帕拉米韦和拉尼米韦等,这些药物在临床中被广泛使用。然而,随着病毒耐药性的出现,这些药物的疗效逐渐受到质疑。例如,某些突变如E119V、I222V、H274Y、R292K和N294S已被发现能够显著降低现有NAIs的抑制效果。这表明,开发新型且更具潜力的NAIs仍然是对抗流感病毒的重要方向。

为了克服传统药物发现方法在效率和成本方面的不足,计算方法在药物筛选和预测中展现出巨大的潜力。计算机辅助药物设计(CADD)领域近年来迅速发展,涵盖了多种技术手段,如分子对接、分子动力学模拟、药效团建模、相似性搜索、定量结构-活性关系(QSAR)以及基于机器学习(ML)和深度学习(DL)的模型。这些方法能够有效识别潜在的活性化合物,并预测其对靶标蛋白的抑制能力。然而,许多现有的模型依赖于单一的机器学习方法,且通常基于有限数量的化合物数据集进行训练,这可能导致模型的泛化能力和预测精度受限。此外,这些方法在分子表征上往往采用通用的分子描述符提取工具,缺乏对特定靶标的深入理解,从而影响模型的学习效率和性能表现。

基于上述挑战,研究团队提出了一种名为XAI-NAI的新型计算方法,旨在通过更高效和精准的策略预测神经氨酸酶抑制剂的活性。XAI-NAI的核心理念是利用机器学习模型的组合,结合多种分子描述符和嵌入表示,以构建一个具有高解释性和预测能力的系统。具体而言,该方法首先提取了21种分子描述符和嵌入表示,这些信息来源于化合物的结构特征,能够全面反映其化学性质和生物活性。接着,这些分子特征被输入到六种强大的机器学习算法中,包括极端梯度提升(XGB)、多层感知机(MLP)、偏最小二乘回归(PLS)、随机森林(RF)、支持向量机(SVMR和SVMP)。通过这一过程,研究团队构建了126个基础回归器,每个回归器都针对不同的分子特征进行训练,从而形成一个丰富的特征空间。

为了进一步优化模型的性能,研究团队采用了一种两步特征选择策略。首先,他们利用多种先进的特征选择方法,从126个基础回归器中提取出多个潜在的特征子集。然后,通过比较不同子集的预测效果,选择出最优的特征组合,并将其作为最终的元回归器的输入。这种策略不仅提高了模型的预测能力,还增强了其对复杂数据的适应性。最终,XAI-NAI模型在独立测试集上表现出色,其预测性能显著优于传统的机器学习模型和相关已发表的预测模型。实验结果表明,XAI-NAI的决定系数(R2)达到了0.750,均方根误差(RMSE)为0.831,平均绝对误差(MAE)为0.576,显示出较高的准确性和稳定性。

除了预测性能的提升,XAI-NAI还被用于虚拟筛选,以识别现有药物中可能具有抗流感活性的候选化合物。通过分析美国食品药品监督管理局(FDA)批准的药物库,研究团队成功筛选出了一些具有潜力的NAIs候选药物。这些候选药物的结合亲和力和活性通过分子对接和分子动力学模拟进行了验证,确保了其在实际应用中的可行性。这一过程不仅节省了实验成本,还加快了药物再利用的进程,为抗流感药物的开发提供了新的思路。

在数据收集和处理方面,研究团队广泛使用了ChEMBL数据库中的多种靶标ID,涵盖了流感A病毒的不同亚型,如H1N1、H1N9、H3N2、H3N8、H4N6、H5N1、H5N2、H5N3、H5N6、H5N8、H7N7、H7N9、H8N4、H9N2、H11N9和H12N5。这些数据为XAI-NAI的训练和验证提供了坚实的基础。此外,研究团队还对化合物的化学空间进行了深入分析,包括分子量、pActivity、辛醇-水分配系数(LogP)、摩尔溶解度对数(LogS)、极性表面积(PSA)、旋转键数目、氢键受体数目和氢键供体数目等关键物理化学性质。这些分析有助于理解不同化合物对NA的抑制机制,并为模型的构建提供了理论支持。

XAI-NAI的成功开发得益于研究团队在方法学上的创新和对数据的深入挖掘。该方法不仅提高了模型的预测能力,还增强了其可解释性,使得研究人员能够更直观地理解药物与靶标之间的相互作用。此外,XAI-NAI的模块化设计也为其在不同药物靶标上的应用提供了可能性。通过调整分子描述符和嵌入表示的组合,该方法可以被扩展用于其他病毒蛋白或药物靶标的预测任务。这种灵活性使得XAI-NAI成为一种通用的计算工具,适用于多种药物发现场景。

在实际应用中,XAI-NAI不仅用于预测现有化合物的活性,还被用于识别潜在的药物再利用机会。通过分析FDA批准的药物,研究团队能够快速筛选出具有抗流感潜力的候选药物,从而为临床转化提供支持。这种基于计算的方法能够有效减少实验筛选的盲目性,提高药物发现的成功率。此外,XAI-NAI的高效性使其能够在短时间内处理大量化合物数据,这对于应对流感病毒快速变异的特点尤为重要。

为了确保研究的透明度和可重复性,研究团队还提供了详细的伦理声明和数据可用性信息。他们明确表示,本研究准确记录了所有实验过程和数据,所有方法都详细描述,便于其他研究者进行验证和复现。此外,研究团队强调,本研究的所有内容均为原创,若引用了其他人的研究成果,均已正确标注并获得必要的授权。这些声明不仅增强了研究的可信度,也为未来的合作和进一步研究奠定了基础。

在资金支持方面,本研究得到了泰国国家研究委员会(National Research Council of Thailand)和玛希隆大学(Mahidol University)的资助。这种支持为研究团队提供了必要的资源,包括高性能计算(HPC)平台和先进的计算基础设施。这些资源对于处理大规模的分子数据和进行复杂的计算分析至关重要。通过利用这些计算资源,研究团队能够高效地完成模型的训练、优化和验证,从而确保XAI-NAI的科学性和实用性。

最后,研究团队在论文中明确声明,所有作者均未声明与本研究相关的利益冲突。这一声明表明,研究的结论和方法是客观、公正的,没有受到任何外部因素的干扰。此外,研究团队对本研究的贡献进行了详细的描述,包括数据收集、模型构建、计算分析、结果验证等多个方面。这种全面的贡献描述不仅体现了团队成员的专业能力和协作精神,也为未来的研究提供了参考和借鉴。

综上所述,XAI-NAI作为一种新型的计算方法,为流感病毒神经氨酸酶抑制剂的发现和筛选提供了强有力的支持。其高效、精准和可解释性的特点,使其成为当前药物发现领域的重要工具。通过结合多种分子描述符和机器学习算法,XAI-NAI能够有效提升模型的预测性能,并为药物再利用提供新的可能性。未来,随着计算技术的不断进步和数据资源的进一步丰富,XAI-NAI有望在更多领域发挥作用,为全球公共卫生和抗病毒药物的开发做出更大的贡献。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号