《Cogent Public Health》:Computational insights into SARS-CoV-2: mutation detection, therapeutic discovery, and vaccine development
编辑推荐:
本综述系统阐述了计算生物学(包括生物信息学、虚拟筛选、人工智能AI等)在应对SARS-CoV-2疫情中的核心作用。文章重点探讨了计算框架如何助力病毒结构预测(如AlphaFold2)、关键突变(如Spike蛋白RBD区)监测、分子对接筛选抑制剂(靶向Mpro、RdRp等)以及免疫信息学驱动的多表位疫苗设计。作者强调了将(in silico)技术与实验数据整合以预测病毒行为、加速 therapeutics 发现的巨大潜力,同时也指出了数据变异性和实验验证不足等挑战,为未来 pandemic preparedness 提供了重要视角。
引言
由SARS-CoV-2引起的COVID-19大流行持续对全球健康构成挑战,这主要归因于病毒的高突变率、强传播力及不断变异的毒株。计算生物学,作为一门融合了生物科学与信息技术的交叉学科,在病毒结构预测、药物发现、疫苗研发和突变监测中扮演了至关重要的角色。它通过计算机辅助药物发现(CADD)等方法,即使非专业人士也能利用现有计算资源和用户友好软件对SARS-CoV-2数据集和生物靶点进行分析,实现了大规模化合物的计算重定位,为快速开发潜在疗法提供了可能。
SARS-CoV-2的致病机制及其计算视角
SARS-CoV-2主要攻击免疫系统和肺部,其致病机制涉及多种途径。最关键的是,病毒表面的刺突(S)蛋白以高亲和力结合宿主细胞的血管紧张素转换酶2(ACE2),这一过程由跨膜丝氨酸蛋白酶2(TMPRSS2)介导的膜融合所促进,从而实现病毒入侵。计算和组学方法极大地扩展了对SARS-CoV-2致病机制的理解。例如,利用矩阵表示与简约法(matrix representation with parsimony)进行进化分析,以及使用ClustalW2进行序列比对,有助于确定病毒的进化关系和选择合适的动物模型。转录组图谱建模和单细胞RNA测序(scRNA-seq)等技术,为揭示感染期间宿主细胞的炎症反应和关键分子机制提供了深入的见解。
SARS-CoV-2结构预测的计算方法
预测SARS-CoV-2蛋白质结构对于理解其功能和开发对策至关重要。多种计算方法被用于此目的。例如,SnapGene可用于生成共识序列并识别核苷酸变异,PredictProtein和SOPMA可预测蛋白质功能影响和二级结构变化,而SWISS-MODEL则用于三维(3D)建模。I-TASSER是一个广泛使用的分层平台,能够通过线程比对、模拟和优化来预测蛋白质原子模型及其生物学功能。近年来,深度学习技术革命性地推动了蛋白质结构预测领域。DeepMind开发的AlphaFold2(AF2)利用深度学习和多序列比对(MSA)的进化信息,能够从氨基酸序列精确预测蛋白质的3D结构。其他AI工具,如Meta AI的ESMFold(可直接从单序列预测,无需MSA,速度更快)、RoseTTAfold(可预测蛋白质与RNA/DNA的相互作用)和开源项目OpenFold,也紧随其后,为快速、大规模地建模SARS-CoV-2蛋白(包括新变异株的蛋白)提供了强大工具。这些计算预测在疫苗和抗体设计的结构建模中发挥着关键作用。
冠状病毒的突变及生物信息学鉴定工具
冠状病毒具有高突变率,其突变率范围在10-5到10-3substitutions per nucleotide site per cell infection (s/n/c)之间。Needleman-Wunsch算法(全局比对)等动态规划技术可用于识别突变和序列间的相似性。机器学习(ML)和分子动力学模拟(MDS)模型也被用于鉴定中和抗体。突变在病毒基因组中广泛存在,但刺突(S)蛋白的突变尤其受到关注,例如著名的D614G突变增强了病毒 infectivity,而N501Y突变则加强了S蛋白与ACE2的结合。奥密克戎(Omicron)变异株携带超过50个突变,其中约30个位于S蛋白,包括RBD区的15个关键突变,这些突变显著增强了病毒的传播能力和免疫逃逸能力。计算饱和突变扫描和基于拓扑深度学习的模型(如TopNetTree)能够预测突变对蛋白-蛋白结合自由能(BFE)的影响,从而预测哪些突变可能增强病毒感染性或导致疫苗突破。为了追踪这些突变,多个数据库被开发出来,例如GISAID、GESS、COVID-19 CG、CovMT、CoV-GLUE、outbreak.info、COV2Var、CoV-Spectrum和COG-UK-ME等。这些数据库提供了全球病毒基因组数据、突变频率、谱系分布等信息,支持病毒进化和传播动力学的研究。
冠状病毒药物发现的计算与实验视角
生物信息学通过分子对接研究,在从大量化合物中筛选针对冠状病毒不同靶点的潜在抑制剂方面发挥了核心作用。主要靶点包括:
- •
主要蛋白酶(Mpro/3CLpro):这是病毒复制的关键酶,是药物开发的热门靶点。计算对接研究发现,天然化合物如齐墩果酸(oleanolic acid)、熊果酸(ursolic acid)、Akuammicine N-oxide、表没食子儿茶素没食子酸酯(epigallocatechin gallate, EGCG)以及药物如洛匹那韦(lopinavir)、利托那韦(ritonavir)、雷特格韦(raltegravir)、波普瑞韦(boceprevir)和GC376等,对Mpro表现出良好的结合亲和力。其中部分化合物(如GC376与瑞德西韦remdesivir联用)在体外实验中显示出协同抗病毒效应。
- •
RNA依赖性RNA聚合酶(RdRp):负责病毒RNA的复制。计算筛选识别出多种激酶抑制剂,如伊布替尼(ibrutinib),可能对RdRp有抑制作用。
- •
刺突(S)蛋白:介导病毒入侵。研究发现,piperolactam A、木犀草素(luteolin)、槲皮素(quercetin)以及儿茶素(catechin)衍生物(特别是EGCG)能够与S蛋白结合,干扰其与ACE2受体的相互作用,从而阻断病毒进入细胞。
- •
其他靶点:如核衣壳(N)蛋白、木瓜样蛋白酶(PLpro,靶向化合物有丁香酚eugenol)以及非结构蛋白(NSPs)和宿主蛋白TMPRSS2(靶向化合物有双去甲氧基姜黄素bisdemethoxycurcumin, BDMC、香芹酚carvacrol等)也是药物设计的对象。
此外,一些化合物如大麻二酚(cannabidiol)和柴胡皂苷(saikosaponins)显示出多靶点抑制的潜力。值得注意的是,许多通过计算筛选出的先导化合物已经得到了一定程度的体外或体内实验验证,凸显了计算方法的预测价值及其与实验研究相结合的潜力。
冠状病毒疫苗开发的免疫信息学
疫苗是应对传染病的关键工具。免疫信息学(Immunoinformatics)利用生物信息学方法解决免疫学和疫苗相关问题,能够通过算法预测潜在的B细胞和T细胞表位,加速疫苗研发进程。目前授权的COVID-19疫苗基于多种平台,包括mRNA疫苗(如Moderna和辉瑞/BioNTech疫苗)、灭活疫苗(如科兴和国药疫苗)以及腺病毒载体疫苗(如阿斯利康和强生疫苗)。计算生物学方法在疫苗设计中用于:比较不同冠状病毒的基因组和蛋白序列;识别三维结构差异;确定蛋白关键区域(如催化活性位点、受体结合域);以及通过突变扫描预测病毒变异对疫苗有效性的潜在影响。疫苗设计的一般步骤包括:从病毒蛋白(如S、N、M、E蛋白)的保守区域预测B/T细胞表位;评估表位的免疫原性、抗原性和毒性;使用连接子(如AAY、GPGPG)将优选表位连接成多表位疫苗构建体;并通过分子对接(如与Toll样受体TLR8)和免疫模拟(如C-ImmSim服务器)来评估疫苗构建体的稳定性和引发免疫应答的能力。此外,基于AI的结构预测和优化(如对S蛋白S2亚基进行工程化改造以增强稳定性)也为下一代疫苗的设计提供了新策略。用于疫苗开发的在线工具和数据库包括VIRsiRNAdb(已不再可访问)、其替代品siRNAEfficacyDB(用于siRNA设计)以及CORDITE(用于病毒-药物相互作用信息)等。
计算方法用于SARS-CoV-2治疗学的转化潜力
计算筛选已识别出大量潜在的SARS-CoV-2治疗方法,但只有一小部分通过实验验证显示出显著的抗病毒活性。例如,大规模虚拟筛选FDA批准的药物后,仅有少数候选物(如吲哚美辛indomethacin)在体外实验中表现出与瑞德西韦(remdesivir)相当的活性。类似地,针对Mpro的基于结构的虚拟筛选(SBVS)所预测的化合物,在实验验证中往往只有 modest 的抑制效果,或仅在毫摩尔浓度下有效。莫努匹拉韦(molnupiravir)及其类似物的开发则展示了计算指导优化并成功进入临床的良好范例。这些案例凸显了计算预测与生物学实验之间存在差距,强调了在将虚拟筛选的先导化合物推进为抗病毒药物之前,进行严格实验验证和优化的必要性。
生物信息学工具用于COVID-19治疗的新兴趋势与局限性
人工智能(AI)和机器学习(ML)算法是本世纪应对COVID-19等传染病的重大突破。它们被用于追踪病毒基因变化、重定位现有药物以及设计新药分子。然而,这些计算方法也存在局限性。例如,深度突变扫描(DMS)在识别组合突变和上位效应方面存在困难;AI/ML模型的准确性依赖于高质量、多样化的训练数据,且对快速变异株的预测可能不准;结合自由能(BFE)预测受限于结构模型的准确性和对体内复杂环境的模拟不足。此外,大多数计算预测缺乏实验验证,且病毒快速进化可能导致预测迅速过时。在疫苗设计方面,计算预测的表位可能在体内无法被抗体接近,分子对接的评分函数可能不准确,并且难以模拟蛋白质的动态构象变化(尽管高斯加速分子动力学GaMD等高级模拟方法正在改善这一点)。AlphaFold2等工具虽然强大,但计算需求高,且难以捕捉配体诱导的构象变化。多组学数据的整合分析也面临挑战。尽管存在这些限制,生物信息学工具无疑极大地加速了疫苗候选物的识别过程,为未来应对新发病毒威胁奠定了基础。
结论与未来展望
冠状病毒大流行对全球健康构成了严峻挑战。本综述总结了计算生物学在识别高毒力突变株(特别是S蛋白突变)、通过分子对接筛选有效生物活性化合物(如靶向Mpro、RdRp、S蛋白等的生物碱、黄酮类、儿茶素衍生物和FDA批准药物)以及利用免疫信息学设计疫苗方面的主要工作。尽管计算方法和数据库为低成本、快速的监测和药物发现提供了强大支持,并且部分计算发现已得到实验验证,但计算预测与实验验证之间的转化仍需加强。未来的研究应侧重于通过标准化工作流程、高通量生物测定和实时病毒监测来弥合这一差距。AI驱动建模、多组学整合和协作数据共享平台的进步将进一步提高计算研究的预测准确性,加速其临床转化,不仅增强了对冠状病毒变异株的 preparedness,也为应对其他新发再发传染病奠定了坚实基础。