综述:人工智能在虚拟筛选中的应用:变革药物研究与发现 —— 综述

【字体: 时间:2025年05月15日 来源:Journal of Bio-X Research

编辑推荐:

  本综述聚焦人工智能(AI)与虚拟筛选(VS)在药物研发中的融合,解析基于配体和结构的筛选方法,探讨 AutoDock、CHARMM 等工具及 AI 算法(如 KarmaDock、DeepDock)的应用,分析数据质量、模型解释性等挑战,展望 AI 驱动药物发现的前景。

  

人工智能在虚拟筛选中的应用:变革药物研究与发现


摘要


虚拟筛选(VS)作为药物发现中的关键计算工具,通过预测化合物与生物靶点的相互作用来识别生物活性分子,包括基于配体和基于结构的方法。尽管取得重要进展,但在准确预测配体 - 受体相互作用、管理大型化学库及提高命中识别效率等方面仍存在挑战。本研究采用先进计算工具(如分子对接、配体 - 蛋白质相互作用分析),结合 AutoDock、CHARMM 等软件及 AI 驱动算法(KarmaDock、DeepDock),探讨机器学习评分系统和定量构效关系(QSAR)模型对结合亲和力预测的提升。

引言


人工智能(AI)已成为虚拟筛选(VS)领域的重要组成部分,尤其在体外药物分析中发挥关键作用。VS 是一种利用基于模型的计算机程序寻找新药候选物的计算技术,可通过 AI 提高其准确性和效率。机器学习(ML)算法通过对已知物质及其属性的大型数据集进行训练,预测生物药理活性;深度学习算法则可分析大规模数据集,揭示不同化合物及其属性之间的复杂关系和模式。

VS 主要分为两种基本类型:基于配体的筛选和基于结构的筛选。基于结构的筛选(SBVS)利用计算机生成的靶蛋白模型,识别与蛋白质活性位点结合的潜在药物候选物,依赖于蛋白质三维结构及蛋白质与潜在治疗候选物相互作用的预测能力,适用于已知结构的靶点。相比之下,基于配体的筛选(LBVS)利用具有已知活性的配体(如与靶蛋白结合的化合物)从化学数据库中发现治疗候选物,基于已知配体与潜在药物候选物的相似性,适用于结构不确定或难以结晶的靶点,也可用于识别具有特定特性或与现有药物功能相似的化学物质。

尽管 SBVS 不一定比 LBVS 更准确,但更有可能识别新的支架。VS 已成为药物开发过程中的关键工具,与传统筛选方法相比,可更快、更经济地识别有前景的先导化合物。基于 AI 的 VS 有望显著加速药物发现过程,降低药物开发的成本和时间,但仍需更多研究来了解这些方法的全部潜力和局限性。

本综述旨在批判性评估 AI 在虚拟药物开发筛选中的整合,探讨深度学习和 ML 模型等 AI 技术如何通过预测小分子与靶蛋白的相互作用来改变药物开发,加速实验筛选并降低成本,同时关注基于 AI 的 VS 的潜在优势和缺点,包括确保药物发现结果的准确性和可靠性所需的严格验证、数据质量要求以及结果的可解释性。

VS 在药物发现:技术、陷阱和精准路径


虚拟筛选(VS)自 1990 年出现以来,已成为验证新型生物活性化学物质的一系列计算工具和模型,广泛应用于高通量治疗筛选和新药开发。VS 策略的关键决定因素是靶标和配体,其性能还取决于与命中识别技术的整合,可消除大量无活性化学物质。正向设计 VS 技术可提高精度和预测能力,从而改善结果。

VS 主要包括基于配体和基于结构的筛选方法。基于配体的筛选策略使用活性配体而非靶标结构,而基于结构的方法则利用靶标的三维结构分析。VS 并非完全无误差,因为它完全依赖数据库。QSAR 和 VS 均假设结构相似的分子具有相似的性质,但这并不一定正确,因此这些方法存在一定的缺点。VS 的主要陷阱包括基于假设、数据和内容、计算机程序以及构象(形状匹配)等方面的问题。

在药物应用中,现有知识对势已被用于改进对接。AutoDock 的拉马克遗传算法使用药学网格来识别有益的配体结合类型,但基于药学的对接中先前发表的配体构象重新排序并不总是产生令人满意的结果。基于 AI 的 VS 通过提高蛋白质 - 配体对接的效率和准确性,加速了药物开发,如 KarmaDock 允许对许多配体库进行高精度对接,CarsiDock 利用大规模预训练实现精确对接和筛选,DynamicBind 通过深度等变生成模型预测配体特异性蛋白质 - 配体复合物结构,DeepDock 利用深度学习优化潜在治疗候选物的识别,改善基于结构的药物发现。

CHARMM 是一种通用的计算机程序,用于计算大分子系统的经验能量函数,可读取或创建结构、建模、演示如何使用一阶或二阶导数方法降低能量、模拟正常或分子动力学以及分析动力学相关性。近年来,这些模拟揭示了经验能量特征和函数,使研究人员能够研究各种分子的物理性质。

确定小分子与蛋白质亲和力的可靠方法对药物发现至关重要,因为分子识别是许多生物过程的基础。识别理想的配体 - 受体相互作用通常困难且昂贵,AI、ML 和计算建模可通过为分子设计提供精确的预测和见解来帮助解决这一问题。这些相互作用的势能可使用量子力学方法计算,包括速度较快的从头算和较慢的半经验程序。对接方法通常采用搜索算法来研究各种配体构象,并使用评分系统来预测结合亲和力,但评分系统无法始终将理想的 “类天然” 构象排在不现实的构象之上。最近的研究表明,ML 算法可通过捕获蛋白质 - 配体相互作用来改进评分函数,QSAR 方法(包括对接、配体结合和评分函数)也改善了结合亲和力预测。

VS 通过显著减少识别先导化合物的时间和成本,彻底改变了药物发现。计算技术如 SBVS 和 LBVS 为资源密集型的传统方法(如高通量筛选(HTS))提供了有效的替代方案。LBVS 使用 ML 方法和 QSAR 模型来识别可行的候选物,而 SBVS 则使用分子对接和分子动力学模拟来预测配体 - 受体相互作用。许多研究已证明 VS 在药物再利用中的有效性,尤其是在 COVID-19 大流行期间,通过 AI 驱动的 VS 确定了 SARS-CoV-2 蛋白的可能抑制剂。然而,VS 的一个关键限制是其依赖分子对接算法和评分函数的准确性,这些算法和函数有时无法预测真实的结合亲和力,导致假阳性或假阴性。深度学习与 VS 的结合提高了命中识别率,但也带来了数据偏差和模型可解释性等挑战。混合系统结合 ML、LBVS 和 SBVS,其预测准确性优于独立技术。尽管取得了这些进展,VS 仍需要实验验证来验证生物活性并减少计算模型的缺点。未来的研究应侧重于改进评分算法、扩展训练数据集以及整合多组学数据,以进一步提高 VS 在药物发现中的可靠性和适用性。

AI 在 VS 中的应用尽管有优势,但也存在一些限制其可靠性和更广泛应用的因素。数据质量是一个重大障碍,因为 AI 模型需要大量数据集进行训练,数据中的偏差、冗余或错误可能导致不准确的预测。生物活性实验中的实验误差、不一致的化学库以及各种化学支架的代表性不足,进一步危及模型的泛化能力。应使用严格的数据管理、标准化和增强方法来减轻这些问题,并整合来自各种来源的多个高质量数据集。模型过拟合是另一个严重问题,AI 算法可能发现过于特定于训练集的模式,无法推广到新化合物,这通常是由于训练数据不足或深度学习系统过于复杂所致。正则化技术、交叉验证和迁移学习有助于解决这一问题,确保模型能够很好地推广到未知化学结构。此外,物理限制和机制见解可增强 AI 模型的弹性,减少其对错误相关性的依赖。

结果的可解释性仍然是一个关键挑战,因为许多 AI 驱动的模型作为 “黑匣子” 运行,难以理解预测是如何做出的,这引起了人们对监管批准和实际实施的担忧。应纳入可解释 AI(XAI)框架、注意力机制和 Shapley 加性解释(SHAPs)等技术来提高可解释性。此外,通过将深度学习与基于规则或基于物理的模型相结合的混合 AI 技术,可以获得机制见解,提高预测的确定性。解决这些问题将提高 AI 在虚拟药物发现筛选中的可靠性和接受度。

蛋白质配体对接的最新进展和未来方向


随着实验确定的 3D 蛋白质结构数量的增加,分子对接等计算辅助设计方法在理解蛋白质功能和基于结构的药物开发中变得越来越重要。设计一种能够快速显示蛋白质与配体相互作用的评分函数能量是所有计算方法中的一个主要问题。评分函数在分子对接中有三个重要应用:确定配体与蛋白质结合的位置和机制、预测配体与蛋白质的相互作用以及在基于结构的药物设计中搜索大型配体数据库以寻找特定蛋白质靶标的潜在治疗命中或先导物。开发适当的测试集和功能评估的成功标准是开发有效评分函数的重要组成部分。尽管取得了重大进展,但由于其数量、多样性和对测试集的依赖,目前使用的评分函数仍然难以理解。

在对接研究中,表征和评估小分子的功效对药物发现至关重要,需要各种计算和实验方法。分子对接是预测配体如何通过生成构象和使用评分函数估计结合亲和力来与靶蛋白结合的基本技术。最近的进展包括 AI 驱动的评分系统,通过检查已知蛋白质 - 配体相互作用的大规模数据库来提高预测准确性。QSAR 模型帮助根据化学结构预测生物活性,使研究人员能够确定决定效力的关键因素。对接预测通过表面等离子体共振和 HTS 等实验方法进行验证,以确保其可靠性。此外,分子动力学模拟提供了配体 - 蛋白质复合物稳定性的见解,补充了初步对接结果。这种综合策略不仅加速了可行药物候选物的识别,还降低了药物开发后期失败的可能性。

当前基于 AI 的工具正在改变对接研究,提高药物发现中小分子效力测定的准确性和效率。ML 评分函数(如 DeepDock 和 AtomNet 算法使用的函数)利用大规模数据集生成更精确的结合亲和力预测,克服了传统评分方法的局限性。生成模型(如变分自动编码器(VAEs)和 GANs)有助于开发适合蛋白质结合位点的新化合物,加速命中检测并导致优化。此外,预测性 QSAR 模型使用 AI 检查结构特征并预测小分子的生物活性,改善治疗候选物的选择。蛋白质 - 配体相互作用指纹(PLIF)可以捕获重要的相互作用模式,使 AI 算法能够优先考虑具有高结合亲和力的药物。多任务学习模型通过同时预测结合亲和力和毒性等多种属性来改善药物选择。最后,自然语言处理(NLP)方法用于挖掘科学文献,确保对接研究以分子相互作用的最新数据为指导。这些 AI 驱动的技术有助于命中检测、先导优化和药物再利用,使药物发现更快、更准确、更具成本效益。随着 AI 越来越多地融入药物研究,识别有趣治疗候选物的可能性增加。

AI 驱动的 VS 技术的最新进展,特别是通过基于 Transformer 的模型、GANs 和主动学习技术的整合,显著增强了药物发现过程,提高了寻找潜在治疗候选物的效率和精度。基于 Transformer 的模型能够识别化学结构中的复杂模式,彻底改变了分子创建方式。例如,开源生成式 AI 框架 REINVENT 4 使用 Transformer 和循环神经网络来创建具有所需特性的小分子,这种方法能够快速探索化学空间,便于发现可行的药物候选物。GANs 通过对现有化合物数据库进行训练,生成与真实分子非常相似的新化学结构,增加了可能的治疗可能性,在 VS 的发展中也发挥了重要作用。

主动学习方法通过迭代选择最具信息性的化学物质进行测试,提高了 VS 的效率,通过将资源集中在最有希望的选择上,减少了必要的实验数量。研究表明,将主动学习与大规模预训练相结合,可提高虚拟分子筛选的样本效率,从而在较少评估的情况下识别高亲和力化合物。这些 AI 驱动技术的结合在药物 - 靶标相互作用预测方面取得了重大进展。例如,分子间图 Transformer(IGT)使用专门的注意力机制来描述分子间信息,从而更准确地预测结合活性和姿势,这种策略优于现有方法,为寻找新药物候选物提供了更可靠的方法。因此,基于 Transformer 的模型、GANs 和主动学习方法的结合显著增强了 AI 驱动的 VS 系统,加速了药物开发过程,实现了新型治疗候选物的快速准确识别。

抗菌和细胞毒性化合物及其在 VS 中的应用


VS 已成为发现新型抗菌和细胞毒性药物的关键工具,利用计算算法预测化合物的活性和安全性。研究人员可以使用 ML 算法,利用现有抗菌药物的大规模数据集,识别对大肠杆菌和金黄色葡萄球菌等耐药菌株具有更高疗效的潜在新型药物候选物。与此同时,VS 方法成功地用于筛选天然产物库中的致死性化学物质,分子对接研究预测了它们与癌细胞靶点的相互作用。这种双重策略允许快速发现有前景的支架,降低传统药物开发方法所需的时间和资源。此外,AI 与 VS 的结合通过提供更准确的细胞毒性和其他药理特征预测,改变了该领域,使研究人员能够优先考虑合成和后续测试的化合物。因此,VS 不仅有助于先导优化和靶标识别,还提高了我们对化合物行为的理解,为传染病和癌症有效药物的开发做出了重大贡献。

核受体(NRs)是一类控制基因表达的转录因子,对生物体的发育、体内平衡和代谢至关重要。孕烷 X 受体(PXR)是 NR1I 家族的成员,调节内源性物质(如胆汁酸、胆固醇和类固醇激素)以及参与异源物质解毒的转运蛋白和酶。人 PXR(hPXR)强烈调节内源性和外源性药物的代谢和消除,通过在市售药物中识别新的 hPXR 激活剂,可能预防联合用药期间的药物 - 药物相互作用。基于配体的计算技术用于在线筛选常用药物数据库(SCUT)的结构描述符,构建贝叶斯分类模型,并使用指纹分析训练集化学物质。在 HepG2 细胞中,使用基于细胞的荧光素酶报告基因测定法评估化学介导的 hPXR 激活。对于所有在 10 M 浓度下评估的化学物质,利福平和二甲基亚砜分别作为阳性和阴性对照。贝叶斯模型对测试集中的化合物的特异性和总体预测准确性分别为 0.92 和 0.69。使用该模型,从 SCUT 数据库中获得了 105 个结果,前 25 个命中中有 17 个化合物被选择用于体外研究。

自古以来,细菌感染一直是人类未解决的健康问题的主要原因,许多细菌物种已对现代抗生素的作用产生了防御机制。在这种情况下,抗菌肽(AMPs)由于其广谱抗增殖特性,长期以来被认为是潜在的治疗替代品。由于肽具有广泛的应用,但在蛋白水解环境中会迅速降解,因此稳定性是一个重要考虑因素。通过添加 d - 氨基酸或氨基氧基氨基酸、改变主链化学或引入环化等技术,可以提高肽的稳定性。理论和计算方法(如化学组学)开发和应用的最新进展,加强了生物信息学与其他相关科学之间的联系,特别是化学组学使虚拟识别有效的新型 AMPs 成为可能。开发的 mtk 计算模型是实现这一目标的可行解决方案,该算法在针对不同革兰氏阴性细菌菌株和多种哺乳动物细胞进行测试时,显示出分类或预测广谱肽的能力。这种策略成功地应用于生产新的肽,预计这些肽具有低细胞毒性,并作为高效抗菌剂。研究的主要重点是确定氨基酸对各种描述符的相对定量贡献,并解释差异。通过利用 mtk 计算模型作为知识生成器,根据肽的不同生物学效应,生成了大量活性且可能安全的 AMPs 库。

结论


AI 正成为药物开发中 VS 的重要组成部分,AI 算法通过预测小分子与特定蛋白质的相互作用,有望加速药物开发并降低实验筛选的成本和时间。基于 AI 的 VS 方法已被证明在识别潜在治疗候选物和提高药物发现命中率方面有效,ML 算法、深度学习模型和其他 AI 技术正被用于解决 VS 中的复杂问题,如预测药物的毒性和 efficacy。然而,基于 AI 的 VS 并非万能,仍面临需要大量高质量数据和结果可解释性等挑战,需要适当的验证和解释以确保 AI 模型生成结果的正确性和可靠性。总体而言,AI 有潜力彻底改变药物发现和 VS,推动各种疾病新型和增强治疗方法的开发。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号