综述:机器学习在抗病毒药物设计中的应用

【字体: 时间:2025年10月02日 来源:Bioorganic & Medicinal Chemistry 3

编辑推荐:

  本综述系统阐述了机器学习(ML)在抗病毒药物研发中的前沿应用,重点聚焦于自2022年以来经实验验证的ML驱动发现案例。文章详细解析了包括监督学习(如支持向量机SVM、随机森林RF)、深度学习(如卷积神经网络CNN、图神经网络GNN)等ML方法在靶向SARS-CoV-2主要蛋白酶(Mpro)、木瓜样蛋白酶(PLpro)及宿主因子(如ACE2、CTSL)中的成功实践,凸显了ML在加速先导化合物识别、优化药物属性及应对新发病毒威胁方面的巨大潜力。

  

1. 引言

病毒感染是全球公共卫生的重大挑战,但由于病毒高度依赖宿主细胞机制且突变率高,抗病毒药物开发尤为困难。传统药物研发既耗时又昂贵,迫切需要更快速、高效的方法。近年来,特别是自COVID-19大流行以来,机器学习(ML)与更广泛的人工智能(AI)已成为药物发现的强大方法论,有望加速抗病毒药物的识别与开发。本综述探讨了ML在抗病毒药物发现早期阶段的应用,重点关注了ML方法成功识别并经生物实验验证活性的案例研究,展示了ML在推进急需的新型抗病毒药物发现中的日益增长的影响力。

2. 机器学习(ML)

ML是AI的一个子领域,涉及开发能够通过识别大型数据集中的模式和关系来学习的算法。这些学习到的模式随后用于对新的、未见过的数据进行预测或做出明智决策。ML方法可根据所需人工参与程度(特别是在特征工程方面)进行广泛分类。传统ML模型通常依赖大量人工输入来手动提取和选择数据中的相关特征,而深度学习则通过应用多层人工神经网络自动进行特征提取。

2.1. 传统机器学习方法

传统ML模型通过分析输入数据来检测模式并生成预测模型。此类模型的性能高度依赖于数据预处理的质量和所提取特征的相关性,这个过程通常需要大量专业知识。
2.1.1. 监督学习
在监督学习中,ML模型使用包含相应输出标签的输入数据进行开发和训练。模型分析这些输入-输出对中的模式,一旦在足够量的数据上训练后,就能对未见过的输入进行准确预测。监督学习可广泛分为回归和分类两大任务。
2.1.1.1. 抗病毒设计文献中最常见的回归算法概述
最常见的回归算法应用包括预测生物和化学特征,如生物活性、理化性质、毒性预测、ADMET(吸收、分布、代谢、排泄和毒性)预测等。抗病毒药物设计中ML算法的典型应用、关键优势和局限性如表1所示。
  • (多重)线性回归 (Multiple) Linear Regression: 用于预测生物活性和分子特性。简单、快速且易于解释,但不适用于非线性数据。
  • 多项式回归 Polynomial Regression: 用于预测生物活性和分子特性。能捕捉更复杂的非线性关系,但容易过拟合。
2.1.1.2. 抗病毒设计文献中最常见的分类算法概述
  • k-最近邻 k-Nearest Neighbor (k-NN): 用于药物-靶点相互作用预测、药物分类、ADMET预测和药物重定位。无需训练,预测时进行计算,但计算成本高,需要仔细选择k值。
  • 朴素贝叶斯 Na?ve Bayes: 用于预测生物活性、蛋白质-蛋白质、药物-药物和药物-蛋白质相互作用、选择候选药物以及估计实验结果。计算快速简单,能处理高维数据,但假设特征独立,这通常不成立并影响准确性。
2.1.1.3. 抗病毒设计文献中最常见的回归和分类算法概述
  • 支持向量机 Support Vector Machine (SVM): 用于预测生物活性、分子特性、药物-靶点相互作用和靶点识别。能处理高维数据,识别复杂模式,特别是在大型和嘈杂数据集中,但对核函数及其参数敏感,可能需要平衡不平衡数据集。
  • 决策树 Decision Tree: 用于预测生物活性、药物-靶点相互作用、毒性和ADMET特性。易于解释,但容易过拟合。
  • 随机森林和XGBoost Random Forest (RF) and XGBoost: 用于预测分子特性、蛋白质-蛋白质结合亲和力、蛋白质pKa值、识别药物-靶点相互作用、虚拟筛选和蛋白质功能分类。减少过拟合,提高准确性并实现更好的泛化,但更难解释。
2.1.2. 无监督学习
在无监督学习中,ML模型在没有已知输出标签指导的情况下识别数据中的模式或结构。由于没有预定义的目标值,算法探索数据集的内在结构以发现数据点之间有意义的关系。最常用和已知的技术是聚类,它根据相似性对数据点进行分组。
2.1.2.1. 抗病毒设计中最常见的聚类和降维技术概述
  • k均值聚类 k-means Clustering: 将数据点分类到预定数量的簇中。能管理高维数据并识别复杂模式,但性能受初始质心选择的影响。
  • 主成分分析 Principal Component Analysis (PCA): 一种广泛使用的降维技术,将大型相关变量集转换为较小的不相关变量集(称为主成分)。降低数据复杂性,但可能导致信息丢失。
  • t分布随机邻域嵌入 t-Distributed Stochastic Neighbor Embedding (t-SNE): 一种降维技术,旨在将高维数据转换为低维表示(通常是二维或三维)以进行可视化。能有效揭示数据中复杂的非线性关系,但计算密集,可能难以准确表示全局结构。
2.1.3. 强化学习
强化学习代表一种ML类型,其中系统通过与动态环境的交互来学习最优决策。学习过程基于试错:系统对有益动作获得正奖励,对不利动作获得惩罚。与监督学习不同,强化学习不依赖标记的输入-输出对。

2.2. 深度学习方法

深度学习是ML的一个子集,依赖于人工神经网络(ANN)来识别数据中的复杂模式。ANN受人脑结构和功能的启发,由称为神经元的互连单元层组成。
2.2.1. 监督学习
在监督学习中,神经网络使用输入数据和相应的输出进行训练。它处理输入以生成输出,然后将其与实际输出进行比较。任何预测输出和实际输出之间的差异都会产生误差信号,网络使用该信号来调整其参数。
  • 多层感知机 Multi-Layer Perceptron (MLP): 一种ANN,由输入层、一个或多个隐藏层和输出层组成。用于去 novo药物设计、预测生物活性以及预测药物-药物和药物-靶点相互作用。
  • 卷积神经网络 Convolutional Neural Networks (CNN): 一种前馈深度ANN,特别擅长识别输入数据中的模式,尤其是图像。用于预测生物活性、化学性质、化合物行为及其与生物靶点的相互作用,以及基于相似性对分子结构进行分组。
  • 循环神经网络 Recurrent Neural Networks (RNN): 一种特殊的ANN,设计用于处理序列数据,如时间序列或自然语言。用于化合物优化、去 novo药物设计、药物-靶点相互作用预测、化合物合成和功效测试以及预测化合物性质。
  • 图神经网络 Graph Neural Networks (GNN): 一种ANN,开发用于处理图形结构数据。用于药物发现中的分子属性预测、蛋白质结构预测和药物重定位。可用于生成新化合物、药物与疾病关联、药物重定位和药物反应预测。
2.2.2. 无监督学习
与常规ML一样,无监督学习中的模型使用没有已知输出的数据进行训练。主要目标是让模型识别输入数据中的模式,检查它们,并使用聚类(将具有相似特征的数据分组)和关联(不同特征如何相互关联)等技术组织数据。
  • 生成对抗网络 Generative Adversarial Networks (GANs): 由两个神经网络组成:生成器和判别器。用于药物性质和结合亲和力的预测和研究、分析测定中的图像数据、药物-药物和药物-靶点相互作用的预测以及去 novo药物设计。
  • 深度信念网络 Deep Belief Networks (DBNs): 由几个堆叠在一起的受限玻尔兹曼机层组成。用于定义分子特征和准确预测新化合物的生物活性。
  • 自编码器 Autoencoder (AE): 一种ANN,由编码器(将输入数据压缩成紧凑表示,同时捕获最重要的特征)和解码器(将压缩数据恢复为尽可能接近原始输入)组成。用于预测药物结合亲和力、开发新化合物和预测药物-蛋白质相互作用。

3. 机器学习在识别具有生物活性的抗病毒药物中的应用

图2展示了抗病毒药物设计中典型的机器学习工作流程,包括数据收集和拆分、模型训练和部署以及实验验证,以识别和优化潜在的抗病毒药物。
表2概述了从2022年起基于ML识别抗病毒药物的研究,包括分子靶点、计算工具、ML算法、生物测定类型和抗病毒活性等信息。

3.1. 针对SARS-CoV-2的抗病毒药物

大多数研究集中在识别针对SARS-CoV-2主要蛋白酶(Mpro)的抗病毒药物。SARS-CoV-2 Mpro是一种同源二聚体酶,对于将病毒多蛋白切割成功能性的非结构蛋白至关重要,这些蛋白对病毒复制至关重要。
3.1.1. 针对SARS-CoV-2主要蛋白酶的抗病毒药物
多项研究应用了不同的ML方法成功识别出Mpro抑制剂。
  • Iype等人 (2022): 使用核脊回归(KRR)模型从DrugBank数据库中识别出溴隐亭 (bromocriptine)阿伏拉司他 (avoralstat),IC50值分别为0.13 μM和2.16 μM。分子对接和动力学模拟表明它们与活性位点结合,溴隐亭与催化残基His41和Cys145频繁相互作用。
  • Jo等人 (2022): 使用AI辅助平台SOMAIPRO从FDA批准的药物库中筛选出辛卡利特 (cynarin)依拉环素 (eravacycline)普雷塞替尼 (prexasertib),IC50值分别为1.82 μM, 1.65 μM, 和1.99 μM。依拉环素在细胞 assay中也显示活性(IC50 = 30.61 μM)。
  • Xu等人 (2022): 结合随机森林(RF)和支持向量机(SVM)QSAR模型以及生物活性谱模型(BABM),筛选出病毒进入抑制剂NCGC00390584 (exatecan)(IC50 = 3.1 nM)和Mpro抑制剂NCGC00390337 (Z-DQMD-FMK)(IC50 = 0.92 μM),以及其他多个在细胞 assay中有效的化合物。
  • Ang等人 (2022): 应用深度学习工具包DeepPurpose中的MLP模型,从天然产物库中预测并实验验证了多个Mpro抑制剂,如CNP0061237(IC50 = 6.88 μM)。
  • Dong等人 (2022): 采用k-NN分类和SVM回归的组合虚拟筛选流程,发现了一系列活性化合物,其中化合物7显示出剂量依赖性的病毒细胞感染抑制和最小毒性。
  • Joshi等人 (2022) 和 Varikoti等人 (2022): 使用基于张量神经网络(TNN)的3D-Scaffold生成模型设计共价抑制剂,并结合SVM、GNN等模型进行优化和筛选,发现了多个具有氯乙酰胺弹头的强效共价抑制剂(如化合物C, IC50 = 160 nM after incubation)和非共价抑制剂(如MCULE-7471308738, IC50 = 2.95 μM)。
  • Saar等人 (2022): 使用RF模型对COVID Moonshot项目的化合物进行排名和优化,设计并合成了化合物1,其酶抑制IC50为0.34 μM,细胞 assay EC50为120 nM,且无细胞毒性。
  • Saramago等人 (2022): 使用基于AWD-LSTM RNN的生成模型创建片段样化合物,并应用分类器预测生物活性,发现了化合物818(IC50 = 1.51 μM, EC50 = 1.1-3.7 μM)。
  • Zhang等人 (2022): 使用预训练的ChemBERTa迁移学习模型筛选天然产物库,发现T2730 (gossypol acetic acid)T2844 (hyperoside) 具有Mpro抑制活性(IC50分别为67.6 μM和235.8 μM)。
  • Komatsu等人 (2022): 应用基于CNN的AI-guided INTENDD平台分析蛋白-配体相互作用,从FDA药物库中筛选出vorapaxardasabuvir(Kd分别为27 μM和3.1 μM),vorapaxar在细胞 assay中显示活性(EC50 = 11 μM)。
  • Juárez-Mercado等人 (2022): 使用Assay Central软件中的多种ML算法和RF QSAR模型进行虚拟筛选,发现了先导化合物13(IC50 = 3.5 μM)及其类似物。
  • Sun等人 (2023): 利用生成化学平台Chemistry42(包含超过40种生成模型)进行去 novo设计,通过多轮优化,最终开发出强效共价抑制剂ISM3312(酶IC50 = 14 nM, 细胞EC50 = 71 nM),该化合物对多种人类冠状病毒具有广谱活性,且已进入I期临床试验。
这些Mpro抑制剂大多在低微摩尔甚至纳摩尔范围内显示强效酶抑制活性,并通过细胞实验验证。它们通常与催化残基Cys145(共价或非共价)和His41相互作用,氢键与Glu166也很常见,这可能干扰蛋白质二聚化。
3.1.2. 针对SARS-CoV-2木瓜样蛋白酶的抗病毒药物
SARS-CoV-2 PLpro是另一种负责多蛋白加工的酶,其活性位点包含Cys112、His273和Asp287组成的催化三联体。
  • Anwaar等人 (2022): 使用基于CNN的DeepDTA模型预测药物与SARS-CoV-2蛋白的结合亲和力,实验验证了利福喷丁 (rifapentine)黄素腺嘌呤二核苷酸二钠 (flavin adenine dinucleotide disodium) 对PLpro的抑制活性(IC50分别为15.18 μM和12.39 μM)。
  • Garnsey等人 (2022): 使用神经网络分类模型(类型未指定)预测并优化基于GRL0617核心结构的化合物,最终得到强效选择性PLpro抑制剂PF-07957472(Ki = 2 nM, 细胞EC50 = 13.9 nM),晶体结构显示了其优化的结合模式。
  • Pal等人 (2022): 使用XGBoost分类模型进行虚拟筛选,发现了苯并[e][1,4]氧氮杂?-3(2H)-酮基先导化合物(如NCGC00473156NCGC00473291,IC50分别为9.88 μM和6.24 μM)。
这些PLpro抑制剂也显示低微摩尔活性,但报告的结合模式表明它们可能通过不同机制起作用,且不一定直接与催化残基相互作用。
3.1.3. 针对SARS-CoV-2刺突蛋白RBD-ACE2相互作用的抗病毒药物
阻止病毒进入是中断病毒传播的第一步。
  • Teshima等人 (2022): 使用基于CNN的AI-guided INTENDD平台筛选姜黄素类似物,发现去甲氧基姜黄素 (demethoxycurcumin)双去甲氧基姜黄素 (bisdemethoxycurcumin) 等化合物能抑制RBD-ACE2结合(IC50 2.4-8.4 μM)和病毒复制(EC50 4.9-23.0 μM),预测与Tyr453, Asn501, Tyr505等残基相互作用。
  • Gkekas等人 (2022): 结合分子对接和基于3D-CNN的AI重新评分功能,筛选出苯并咪唑类化合物CKP-22,并进一步优化得到CKP-25,能抑制假病毒和真病毒 infection(IC50 3.5-55 μM),预测与Tyr505和Tyr496等残基相互作用。
这些抑制剂显示出有希望的抗病毒细胞活性,预测结合在相同的口袋,常见与Tyr505的π-堆积和与Tyr496的氢键。
3.1.4. 针对其他已知SARS-CoV-2靶点的抗病毒药物
  • Yang等人 (2022): 使用 directed message-passing neural network (D-MPNN) 模型预测和组织蛋白酶L(CTSL)抑制剂,发现已知的 covalent抑制剂如Mg-132(酶IC50 = 12.28 nM, 细胞EC50 = 0.21-212.50 nM)和Z-FA-FMK,以及通过模型预测的达托霉素 (daptomycin)(酶IC50 = 7.87 μM, 细胞EC50 ~100-220 μM),它们能抑制SARS-CoV-2假病毒和真病毒 infection。
  • Xiang等人 (2022): 使用结构生成器EMPIRE(基于变分自编码器AE)和基于CNN的DeepFrag模型,针对SARS-CoV-2核衣壳蛋白(N蛋白)设计新化合物,发现了化合物38(Kd = 0.35-0.73 μM, 细胞EC50 = 11.3 μM),它能有效抑制N蛋白与RNA的结合。
3.1.5. 针对未明确SARS-CoV-2靶点的抗病毒药物
一些研究发现了具有细胞活性的化合物,但其具体靶点和作用机制尚不完全清楚。
  • Ali等人 (2022): 使用基于GCNN的DeepChem平台和t-SNE聚类技术,从大量化合物中预测并实验验证了多个抗病毒化合物(如C3, EC50 ~1 μM),并鉴定出硫唑嘌呤 (azathioprine) 及其代谢物硫次黄嘌呤核苷酸 (thioinosinic acid) 具有类似核苷类似物抑制剂的抗病毒活性。
  • Bess等人 (2022): 应用“eVir”AI平台,使用连体神经网络(SNN)和MLP模型,通过比较药物与抗病毒肽(AVP)的作用预测,筛选出能模拟AVP抑制病毒进入、融合和复制机制的FDA批准药物,如甲苯达唑 (mebendazole)(IC50 = 48.55 nM)、吉非替尼 (gefitinib)(IC50 = 62 nM)等,它们在细胞 assay中显示出强效抗病毒活性。
  • Van der Horst等人 (2022): 使用GNN模型预测已完成至少I期临床试验的化合物的抗病毒活性,发现PI3K-mTORC1/2通路抑制剂PKI-179MTI-31对SARS-CoV-2及其变体以及其他冠状病毒具有广谱抗病毒活性(IC50 0.15-0.4 μM),并在原代人气道上皮细胞中证实。

3.2. 针对SARS-CoV-2以外病毒的抗病毒抑制剂

虽然大多数研究集中在SARS-CoV-2上,但也探索了针对其他病毒及其各自靶点的药物。
  • Kovalishyn等人 (2022): 使用OCHEM平台上的Trans-CNN和Trans-CNF共识QSAR模型,设计并合成噁唑衍生物,发现了抗水痘-带状疱疹病毒化合物39(EC50分别为4.01 μM和0.10 μM),化合物9通过靶向细胞周期蛋白依赖性激酶发挥作用。
  • Kovalishyn等人 (2022 - 另一项研究): 同样使用OCHEM平台,应用WEKA-RF、DLCA、ASNN和XGBOOST共识模型,发现了抗人巨细胞病毒(HCMV)的唑类衍生物15(EC50分别为0.18 μM和5.58 μM),逆分子对接提示DNA polymerase可能是作用靶点。
  • Alkan等人 (2022): 应用基于马尔可夫决策过程(MDP)的AtomNet平台进行强化学习,筛选出 targeting 裂谷热病毒(RVFV)Gc蛋白的化合物RGc-B05RGc-F06RGc-F12(IC50 10.98-20.61 μM),能阻止病毒进入细胞。
  • Izmailyan等人 (2022): 应用MDP模型进行强化学习,从头设计针对甲型和乙型流感病毒神经氨酸酶(NA)的化合物,发现了DS-22-inf-009DS-22-inf-021(对甲型流感NA IC50 11.2-24.8 μM,对乙型流感NA IC50 9.1-21.2 μM),它们在细胞和动物模型中均显示有效抗病毒活性。
  • Nguyen等人 (2022): 使用GCNN回归模型预测神经氨酸酶抑制剂的结合自由能,筛选出两个化合物显示潜在抑制活性(具体值未报告)。

3.3. 生物学意义和研究发现的意义

本综述强调的ML驱动抗病毒发现的生物学意义在于其能够靶向必需的病毒蛋白和宿主-病毒相互作用,并提供快速识别具有高抗病毒活性化合物的结果,这些化合物抑制关键病毒酶(如SARS-CoV-2 Mpro和PLpro)以及宿主因子(如CTSL和ACE2)。使用多样化的ML算法,从传统方法到深度学习,能够识别更广泛的生物活性化合物和机制,提高了预测准确性和化学创新性。这些结果表明,ML有潜力发现超越传统药物化学的支架多样性以及新的作用机制。

4. ML

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号