VDLIN:一个基于深度学习的平台,用于筛选受甲基钴胺素启发的免疫调节化合物
《Advanced Science》:VDLIN: A Deep Learning-Based Platform for Methylcobalamin-Inspired Immunomodulatory Compound Screening
【字体:
大
中
小
】
时间:2025年10月28日
来源:Advanced Science 14.1
编辑推荐:
抗炎活性与免疫调节的平衡:甲基钴胺(MCB)通过抑制NF-κB信号通路减轻炎症反应,但过度抑制导致先天免疫应答受损。本研究开发深度学习模型VDLIN,筛选出新型化合物Co7,既能抑制炎症相关基因表达,又能激活EGR1依赖的干扰素应答,通过TLR4/ TRIF通路增强抗病毒免疫。ATAC-seq和CUT&Tag分析揭示MCB通过限制NF-κB和EGR1结合位点的染色质可及性实现免疫调节。Co7在抑制IL-6、TNF-α等炎症因子同时,显著提升IFNB1和ISG15表达,在小鼠LPS脓毒症模型中表现出优于MCB的生存改善效果。
在新冠疫情期间,甲基钴胺(MCB)作为一种维生素B12的活性形式,展现出在减轻SARS-CoV-2感染引发的细胞因子风暴方面的治疗潜力。尽管MCB的显著抗炎特性已被确认,但观察到其治疗可能会削弱巨噬细胞介导的先天免疫反应。通过全面的RNA测序、ATAC测序和CUT&Tag分析,发现MCB通过限制NF-κB和EGR1结合位点的染色质可及性,从而减少IFNB1的产生并增强病毒免疫逃逸。为了应对这一挑战,开发了一个深度学习模型VDLIN(Vitamin B12-derived Deep Learning for Innate Immunity),用于识别能够同时抑制炎症并增强先天免疫的化合物。正如预期,VDLIN识别出了一种新型化合物“Co7”,它保留了MCB的强抗炎效果,同时通过TLR4信号通路增强免疫激活。因此,Co7作为有前景的治疗候选药物,相比MCB具有平衡抗炎和免疫刺激功能的优势。综合来看,这项研究揭示了染色质动态与免疫调节之间的复杂关系,为炎症性疾病和SARS-CoV-2感染的治疗干预提供了新的机遇。
在面对SARS-CoV-2感染引发的免疫反应时,过度激活的免疫系统会释放大量的促炎细胞因子,如IL-6、IL-1β和TNF-α。这种失控的免疫反应,主要由先天免疫系统驱动,会引发一系列免疫细胞招募和信号通路激活,旨在清除病毒。然而,不受控制的细胞因子产生会导致全身性炎症、严重的组织损伤和增加的血管通透性。在新冠重症病例中,这种失控的炎症反应最终可能导致急性呼吸窘迫综合征(ARDS)、多器官衰竭,甚至死亡。持续的细胞因子升高会加剧免疫反应,形成炎症和组织破坏的恶性循环。因此,深入理解细胞因子风暴的机制对于开发有效的干预措施,以降低新冠相关死亡率至关重要。此外,SARS-CoV-2会削弱宿主的抗病毒防御机制,通过抑制I型干扰素信号通路并促进免疫逃逸。这些发现强调了开发能够调节免疫反应以减轻炎症同时保持抗病毒免疫的治疗策略的紧迫性。
甲基钴胺(MCB)作为维生素B12的活性形式,在甲硫氨酸循环中扮演着关键的辅因子角色,促进S-腺苷甲硫氨酸(SAM)的合成,SAM是DNA甲基化过程中的主要甲基供体。这一循环始于同型半胱氨酸向甲硫氨酸的转化,这一过程由甲硫氨酸合成酶催化,随后甲硫氨酸转化为SAM。SAM通过DNA甲基转移酶(DNMTs)的作用,将甲基基团捐赠给DNA,尤其是在CpG二核苷酸处,形成5-甲基胞嘧啶,这是通常与基因抑制相关的表观遗传标记。通过维持适当的甲基化水平,MCB支持了关键的DNA甲基化模式,这些模式对于发育、基因组印记和抑制转座子至关重要。DNA甲基化模式的破坏已被与多种疾病相关联,包括癌症、神经退行性疾病和自身免疫疾病,突显了MCB在基因组稳定性与基因调控中的作用。此外,MCB通过调节关键促炎细胞因子,如TNF-α、IL-1β和IL-6,展现出强大的抗炎和神经保护作用。MCB也被用于缓解与新冠相关的细胞因子风暴,可能有助于减轻疾病严重程度并改善临床结果。然而,MCB抑制炎症的精确分子机制及其增强抗病毒I型干扰素反应的潜力仍需进一步研究。
近年来,机器学习(ML)算法在药物筛选中的应用彻底改变了制药研究,加速了治疗剂的识别和开发。先进的ML模型,如深度神经网络、卷积神经网络(CNN)和支持向量机(SVM),能够分析复杂的生物数据集,预测药物的疗效和安全性,从而加快药物发现并降低相关成本。这些方法还通过利用广泛的药物数据库,识别现有化合物的新治疗应用,从而促进药物再利用。此外,深度学习在药物发现中的应用通过使用TensorFlow和Keras等开源框架,使得复杂模型的构建和大规模生物医学数据集的分析变得更加高效和可扩展。这种方法揭示了数据集中的复杂模式,提高了药物发现的多个方面,包括从头设计、逆合成分析和分子性质预测。在本研究中,我们展示了MCB虽然有效抑制了过度的炎症反应,但也降低了宿主的抗病毒先天免疫反应。为了解决这一双重调节挑战,我们开发了VDLIN模型,这是一个基于CNN的框架,旨在捕捉MCB介导的免疫调节的转录组特征。该模型用于筛选同时抑制炎症并增强I型干扰素反应的化合物。我们进一步研究了Co7的目标和分子机制,以阐明其治疗潜力。
为了阐明MCB抗炎活性的分子机制,我们对RAW 264.7细胞进行了批量RNA测序(RNA-seq)分析,这些细胞分别接受了LPS或LPS加MCB的处理。主成分分析(PCA)显示,在MCB处理后,全球转录组谱出现了显著的偏移,表明MCB显著逆转了LPS诱导的转录组变化。差异表达分析识别出一组由MCB显著下调的基因,其中许多是经典的促炎介质,包括Tnf、Il6、Ccl4、Csf3、Il27和Saa3。相反,MCB上调了与膜转运、自噬、代谢和氧化应激调节相关的基因,如Acp5、Dusp14、Ulk1、Morn4、Sesn3、Slc37a2和Slc5a3。这些数据表明,MCB不仅抑制促炎基因表达,还促进细胞稳态和应激适应过程,突显了其在免疫调节和代谢调节中的双重作用。
我们进一步通过GO和KEGG富集分析来探索MCB调控的生物学过程。LPS-MCB组上调的基因富集在与脂质代谢、凋亡、线粒体自噬、自噬和蛋白酪氨酸磷酸酶活性相关的通路中。相比之下,下调的基因则显著富集在促炎通路中,包括TNF、NF-κB、趋化因子、Toll样受体、JAK-STAT信号和细胞对IL-1和TNF的反应。GSEA进一步确认了LPS-MCB组中标志性通路如炎症反应、IL6-JAK-STAT3信号和TNFA信号通过NF-κB被抑制。相反,代谢通路如血红素代谢和胆汁酸代谢被激活。我们构建了蛋白质-蛋白质相互作用(PPI)网络以识别功能相互作用。下调的DEGs主要涉及炎症、染色体组织、DNA复制和细胞周期调控。一个热图展示了代表性基因如Il1b、Il6、Il17、Ccl3、Ccl9、Acod1和Tnf的表达变化,显示出MCB处理后的一致下调。相反,上调的基因富集在硫代谢、线粒体自噬和脂质代谢中。值得注意的是,线粒体自噬相关基因如Atg12、Atg14、Map1lc3a、Nbr1、Pink1和Ulk1在LPS和非LPS背景下均被MCB显著诱导,这表明线粒体自噬可能与MCB的抗炎作用有关。
为了进一步确定上游调控因子,我们使用TOBIAS(v0.17.0)进行了转录因子足迹分析。Rela和Nfkb1在LPS组中显示出显著增加的结合活性,这与它们的高表达一致。热图显示了LPS组中NF-κB p65的结合信号比DMSO、LPS-MCB和MCB组更高。MCB显著抑制了促炎转录因子的结合,包括Nfkb1、Nfkb2、Irf3、Fosl1、Jund和Stat1,突显了其广泛的抗炎作用。相反,涉及染色质调控的转录因子,如Cebp1、Sum1、Arid5a和Spt15,在MCB组中表现出增强的结合活性。通过整合ATAC-seq和RNA-seq数据,我们识别出258个同时差异表达且靠近DARs的基因。IGV可视化显示,在LPS组中,炎症相关位点(如Tnf、Lta、Ltb、Vma21、Acod1和Hmgb1)的染色质可及性更高,而Ctla2b等基因在LPS-MCB和MCB组中更为可及。FPKM值与染色质可及性图谱一致。值得注意的是,MCB改变了多个关键转录因子和组蛋白基因的染色质可及性和表达水平,包括Atf3、Irf3、H4c9、H2ac11和H2bc11,这突显了其在染色质层面的免疫调节机制。
在研究MCB对EGR1调控的影响时,我们发现EGR1、EGR2和EGR3在LPS组中表现出显著的染色质可及性和表达水平升高,而在MCB处理后显著下降。EGR1尤其显示出最显著的增加,并在MCB处理后被显著下调。为了进一步验证EGR1的调控作用,我们进行了CUT&Tag分析,确认了LPS组中EGR1的结合信号增强。这些DARs主要位于转录起始位点(TSS)附近,富集在启动子、3′UTRs和内含子中,特别是在±3 kb的TSS范围内。KEGG通路富集分析显示,这些DARs与NOD样受体信号、TNF信号和Toll样受体通路相关,突显了EGR1在调控炎症基因中的核心作用。表达分析显示,MCB显著下调了多个I型干扰素基因(ISGs)的表达,包括Jak2、Oas2、Oas3、Cxcl10、Isg15和Ifitm3。为了验证EGR1的调控作用,我们在HEK293T细胞中过表达了EGR1,这显著增强了Poly(I:C)刺激下Ifnb1、Isg15和Oas2的表达。相反,在RAW264.7细胞中通过shRNA敲低EGR1显著降低了这些基因的表达。这些结果与先前研究中EGR1在抗病毒防御中的作用一致。综上所述,我们的研究结果表明,MCB通过NF-κB通路抑制炎症,并减弱EGR1介导的先天免疫反应。尽管MCB的免疫抑制作用可能对炎症性疾病患者有益,但它可能会削弱其抗病毒免疫,从而促进免疫逃逸。
为了识别同时抑制NF-κB驱动的炎症特征并增强EGR1介导的先天免疫反应的药物,我们开发了VDLIN模型,这是一个基于卷积神经网络(CNN)的模型,灵感来源于维生素B12(VB12)的免疫调节特性。我们整理了一个全面的训练数据集,包括化合物结构和相关基因表达谱,这些数据来自公开资源,如LINCS、DrugBank和ChEMBL。化学结构以SMILES字符串形式表示,转化为语法树,并编码为one-hot数组。这些数组通过变分自编码器(VAE)进行降维,生成输入向量(X)。每个化合物相关的差异表达基因(DEGs)同样被编码为one-hot向量,作为输出标签(Y)。特征选择聚焦于十个与NF-κB相关的炎症基因(如IL1B、IL6、TNF、PTGS2和NOS2),以及Egr1、Ifnb1、ISG15、IFIT3和CXCL10,后者是先天免疫激活的代表性标志物,最终得到10个与炎症和抗病毒防御相关的核心基因。VDLIN由两个主要组件组成。首先,使用三层1D CNN从化合物嵌入中提取结构特征。这些特征通过密集层生成均值和半径向量,定义一个高维球形潜在空间。然后,从潜在空间中采样并输入到四层密集网络,以预测十个目标基因的表达水平。
为了严格评估VDLIN的性能优势,我们对五种广泛使用的传统机器学习算法进行了全面的基准测试,包括使用径向基函数(RBF)核的支持向量机(SVM)、k-最近邻(kNN)、逻辑回归、随机森林(RF)和梯度提升(GB)。所有模型使用相同的输入特征和一致的训练-测试分割,通过网格搜索和交叉验证优化超参数,以确保公平比较。如图所示,VDLIN实现了高预测准确性,其受试者工作特征曲线(ROC)下的面积(AUC)为0.931,真正例率(TPR)为92.31%。此外,如图所示,VDLIN在关键评估指标上优于所有传统模型。具体而言,它比表现最好的基线模型(梯度提升,AUC = 0.873)的AUC高5.0%,并比梯度提升(F1 = 0.893)的F1值高出3.2%。这表明在类别不平衡条件下,VDLIN在精确度和召回率之间取得了更好的平衡。为了进一步评估模型的稳健性,我们引入了不同水平的合成标签噪声(10%、20%和30%),并评估了由此产生的性能下降。VDLIN表现出显著的韧性,其F1值在30%噪声下仅下降了4.3%,而梯度提升和SVM分别下降了9.8%和11.2%。这种稳健性可能归因于VDLIN的深度卷积架构,该架构能够有效捕捉高阶非线性依赖关系,同时通过正则化和dropout机制减少过拟合和噪声敏感性。这些结果强调了VDLIN在预测性能、稳健性和泛化能力方面的优势,突显了其作为识别与先天免疫调节相关的化合物的强大工具的潜力。
随后,我们将VDLIN应用于CAS化合物数据库中的小分子筛选。具有最高预测免疫调节潜力的候选分子被选中进行实验验证。其中,一种化合物被命名为Co7,表现出显著的双重活性:抑制NF-κB介导的炎症并增强EGR1驱动的先天免疫激活。Co7的化学结构如图所示。体外和体内实验验证了VDLIN的预测。Co7在RAW 264.7和J774巨噬细胞系、原代骨髓来源的巨噬细胞(BMDMs)和腹腔巨噬细胞(PMs)中显著诱导Ifnb1的表达,其表达在处理后3小时达到峰值。这些发现验证了VDLIN作为靶向先天免疫调节的合理药物发现框架的稳健性。
为了明确Co7触发EGR1依赖的先天免疫反应的分子靶点和信号通路,我们对RAW264.7细胞进行了批量RNA测序,这些细胞分别接受了DMSO或Co7的处理。火山图显示,在Co7组中,Egr1、Ifnb1、Ifna4和ISGs如Rsad2、Ifit2和Ifit3b显著上调。PPI网络分析显示,Co7诱导的DEGs富集在先天免疫和I型干扰素信号通路中。GSEA进一步表明,这些DEGs激活了经典通路,包括TNF信号、Toll样受体(TLR)信号、MAPK信号、NOD样受体信号和细胞质DNA感知。为了确定上游PRR介导Co7反应,我们应用了药理学抑制剂和基因敲除技术。TLR4、TRIF和TBK1/IKKε的抑制剂显著抑制了RAW264.7和J774细胞中Ifnb1的诱导。一致地,来自TLR4或TRIF敲除小鼠的BMDMs和PMs在Co7处理后表现出显著降低的Ifnb1表达,证实了Co7激活TLR4–TRIF–TBK1轴。鉴于MCB缺乏抗病毒特性,我们进一步测试了Co7的抗病毒效果。Co7预处理显著抑制了VSV在RAW264.7和HT29细胞中的感染,表现出强大的抗病毒活性。这些结果表明,Co7增强了I型干扰素反应和ISG表达,从而促进抗病毒防御。由于MCB通过抑制NF-κB来减轻炎症,我们假设Co7可能保留或增强这一特性。事实上,Co7显著减轻了LPS、VSV、EMCV和HSV诱导的炎症反应,这表明其具有广泛的抗炎活性。
我们对LPS和Co7处理的RAW264.7细胞进行了RNA测序,以进一步评估这一效应。与LPS单独处理相比,Co7上调了Egr1、Ifnb1、Ifna4以及一些组蛋白基因(如H2ac7、H1f5、H2bc4、H2bc11和H2bc18)。相反,经典的促炎基因被下调,包括Il1a、Il1b、Il27、Csf3和Ptgs2。Western blotting进一步确认了Co7处理后iNOS和COX2的表达减少(图)。我们接下来通过测量p65的磷酸化来评估NF-κB活性。正如预期的那样,LPS诱导了强烈的p65磷酸化,而Co7没有诱导这种磷酸化,这表明Co7抑制了NF-κB的激活。最后,在LPS诱导的败血症模型(20 mg/kg)中,Co7处理显著提高了存活率(图),支持其在体内的抗炎效果。综上所述,Co7,作为MCB的衍生物,表现出双重免疫调节活性——抑制NF-κB驱动的炎症同时增强TLR4–TRIF–TBK1介导的I型干扰素反应。这些发现验证了VDLIN作为有效策略的潜力,用于识别具有结合抗炎和免疫刺激潜力的化合物,以治疗免疫相关疾病。
临床研究显示,MCB可能在新冠疫情期间减轻与SARS-CoV-2感染相关的细胞因子风暴。然而,MCB对促炎基因启动子的甲基化作用的具体性和其对先天免疫反应的影响尚不明确。在本研究中,我们验证了MCB在LPS处理的细胞和动物模型中的抗炎特性。值得注意的是,MCB还削弱了巨噬细胞介导的先天免疫反应,这可能影响抗病毒防御。为了阐明MCB双重作用的机制,我们使用多组学方法,包括RNA测序、ATAC测序和CUT&Tag,研究了MCB对转录组动态和染色质可及性的影响。我们的研究结果表明,MCB通过减少NF-κB和EGR1结合位点的染色质可及性,导致IFNB1的产生减少,并促进病毒免疫逃逸。为了解决这些局限性,我们开发了一个深度学习模型VDLIN,该模型识别出了一种新型化合物“Co7”。
我们的RNA测序结果支持MCB在抗炎中的强大作用,显示出Il1b、Il6和Tnf等促炎细胞因子的下调。这一发现与我们的ATAC测序分析一致,显示MCB显著减少了LPS诱导的染色质可及性,尤其是在与促炎转录因子如NF-κB相关的区域。值得注意的是,关键调节因子如Egr1、Egr2和Egr3的可及性和表达水平在MCB处理后被抑制。早期生长反应(Egr)基因家族(如Egr1、Egr2、Egr3和Egr4)编码的转录因子被生长因子和神经活动激活,调控细胞增殖、分化和凋亡等关键过程。最近的研究强调了Egr1在调节先天免疫和炎症中的作用,突显了其治疗潜力。我们的CUT&Tag分析和功能实验进一步验证了MCB处理后Egr1在先天免疫反应中的调控作用。此外,ATAC测序足迹分析显示,MCB处理组中转录因子如CEBP-1和ARID5A显著富集,这可能作为调节免疫反应、抗病毒防御和抑制过度炎症的分子开关。然而,MCB减少这些位点的染色质可及性的机制仍需进一步研究。
近年来,机器学习(ML)在药物发现中的应用展示了其在预测生物活性和识别新化合物方面的巨大潜力。监督模型,如随机森林和支持向量机,具有鲁棒性,但面临可扩展性和可解释性挑战。相比之下,深度学习模型,包括卷积神经网络(CNN)和循环神经网络(RNN),在捕捉复杂的分子关系方面表现出色,但需要大量数据集和计算资源。在本研究中,我们使用TensorFlow和Keras开发了基于CNN的VDLIN模型,目标是预测小分子对抑制炎症和增强先天免疫的双重能力。该模型基于维生素B12的转录组和分子特征,经过训练以推断化合物诱导的基因表达谱,具有高预测准确性。模型架构设计用于捕捉分子特征交互及其对应的基因表达模式。每种小分子被表示为维度(4717,6042,1)的特征向量。模型首先使用包含32个过滤器和3个内核大小的Conv1D层,应用ReLU激活函数提取相关分子特征。接着,通过MaxPooling1D层减少维度,同时保留关键信息。第二个Conv1D层包含64个过滤器,随后是另一个MaxPooling1D层,进一步优化特征提取。从这些卷积层输出的特征被展平为一维向量,并通过包含128个神经元和ReLU激活函数的Dense层进行处理。为了防止过拟合,采用了0.5的dropout率。使用Sigmoid激活函数,最终的Dense输出层预测了目标基因的表达状态(上调或下调)。模型使用Adam优化器和二元交叉熵损失进行编译,以实现二分类。
为了确保VDLIN模型与传统机器学习方法的严格和公平比较,我们采用了一种统一的贝叶斯超参数优化框架,基于高斯过程,使用Scikit-Optimize库实现。这一策略因其在样本效率、处理混合类型搜索空间和高维优化任务中的鲁棒性而被选择。优化协议围绕三个核心原则设计:模型方法在所有模型中保持一致,对相关超参数空间进行彻底探索,以及计算可扩展性。每个模型最多进行100次优化迭代,如果连续20步没有验证损失的改善,则触发早期停止。目标函数是使用三重交叉验证评估的受试者工作特征曲线(AUC-ROC)。所有模型使用相同的输入特征和相同的训练/测试分割。每个模型的超参数通过网格搜索和五重交叉验证进行优化,以确保公平和可重复的比较。为了评估模型的鲁棒性,我们在训练数据中引入了不同水平的合成标签噪声(10%、20%和30%)。对于每个噪声水平,随机选择一部分训练样本的类别标签被置换,而测试集保持不变。模型在每种噪声条件下重新训练,并测量由此产生的性能下降。图展示了不同噪声水平下F1分数的变化,突显了VDLIN相对于基线模型的稳定性。
在本研究中,我们使用了Python的SciPy库进行所有统计分析。结果以均值±SEM形式呈现。p值小于0.05被认为是统计显著(*),p值小于0.01和p值小于0.001则被视为高度显著(**和***)。此外,本研究生成的RNA-seq、ATAC-seq和CUT&Tag数据集已存档在基因表达数据库(GEO)中,存取编号分别为GSE274237、GSE274235和GSE274236。用于模型开发和数据分析的源代码可在GitHub上公开获取。
本研究的结果表明,VDLIN不仅提供了一种稳健且生物学导向的策略,用于识别与MCB相关的免疫调节化合物,还建立了一个灵活的框架,用于机制驱动的化合物发现,适用于多种免疫学和病理学条件。通过这种方式,VDLIN能够为不同疾病模型提供广泛的药物筛选支持,从而推动新型治疗策略的开发。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号