《MedComm》:Robust Diagnostic and Therapeutic Biomarkers for Tuberculosis Identified Through Multi-Omics and Mendelian Randomization Analysis
编辑推荐:
本文通过整合脂质组学、蛋白质组学与孟德尔随机化(MR)分析,结合转录组学验证,系统筛选并验证了结核病(TB)诊断(PC(18:2/18:2)、PC(14:0/20:4)、HP、RBP4)与疗效监测(PC(18:2/18:2)、PC(18:0/20:4)、HP、RBP4、F13B、ITIH1)的新型生物标志物。构建的多组学随机森林模型诊断(AUC = 0.967)与疗效预测(AUC = 0.981)性能优异。研究进一步通过独立队列(GSE34608,AUC = 0.965)和ELISA(AUC = 0.969)验证了HP的核心价值,并揭示其可能通过调节铁稳态(如ferroptosis通路)和免疫应答参与结核分枝杆菌(Mtb)感染机制。该研究为TB的精准诊疗提供了强有力的多维度分子证据和潜在治疗靶点。
1 引言
肺结核(Tuberculosis, TB)是由结核分枝杆菌(Mycobacterium tuberculosis, Mtb)引起的慢性传染病,仍是全球重大的公共卫生挑战。据世界卫生组织(WHO)2024年报告,2023年全球新发结核病例约1080万例,死亡人数达125万,结核病是全球传染病致死的主要原因之一。当前结核病诊断主要依赖痰液样本,但存在样本获取困难、灵敏度低等挑战。全球仅51%的结核病例得到细菌学确认。此外,涂片镜检、Mtb培养和胸部X光等临床检测方法也存在局限性。因此,开发基于血液、尿液或其他非痰液标本的灵敏、特异的生物标志物,对于在初级保健层面实现结核病检测和即时诊断具有重要意义。
结核病治疗通常需要至少6个月的多种药物联合治疗,但标准6个月方案对新诊断结核病的成功率仅为85%,全球复发率在2.3%至6.5%之间。目前临床对治疗疗效和"治愈"状态的评估主要依赖影像学改善、症状缓解和治疗完成等非特异性指标,缺乏客观、可量化的实验室评价体系。因此,迫切需要能够准确评估结核病治疗疗效的生物标志物。
血液作为生物标志物来源具有样本采集简便、侵入性低、处理简单等优势,在早期疾病筛查和个性化治疗方面前景广阔。脂质是Mtb生长和复制的主要营养来源,宿主脂质谱与结核病的发病机制密切相关。蛋白质组学可以揭示肺结核背景下的差异表达蛋白(Differentially Expressed Proteins, DEPs),为阐明结核病的分子病理机制提供支持。转录组学则从基因表达水平提供分子证据。整合多组学分析可以实现交叉验证,提供单数据集可能无法揭示的生物学功能见解。孟德尔随机化(Mendelian Randomization, MR)分析有助于从大量候选分子中筛选出最可能具有因果效应的分子,优先用于未来的功能验证、靶点开发和临床转化。
本研究旨在通过整合多组学数据与MR分析,鉴定结核病的诊断和治疗性生物标志物。基于健康组、结核病组和结核病治愈组,结合脂质组学和蛋白质组学数据以及MR分析进行生物标志物筛选。研究首先分别鉴定了用于结核病诊断和治愈评估的脂质和蛋白质生物标志物,然后利用随机森林机器学习算法构建了诊断和治愈模型,并评估了其效能。此外,通过整合共候选脂质相关基因和转录组学的分子证据,进一步探索了核心生物标志物的生物学价值和转化潜力。
2 结果
2.1 血浆脂质组学结合MR鉴定脂质生物标志物
研究首先对1400种血浆代谢物及其与结核病的关联进行了MR分析。基于逆方差加权(Inverse Variance Weighted, IVW)方法,结合方向一致性、无异质性和多效性证据,最终确定了15种与结核病有显著因果关系的血浆代谢物,其中9种是脂质,提示脂质代谢在结核病的发生和进展中起重要作用。
对TB0组(新诊断未治疗)、TB6组(治愈)和健康对照(HC)组的血浆样本进行脂质组学分析,共鉴定出23个脂类和537个脂质物种。与HC组相比,TB0组有163个脂质物种发生显著改变(134个下调,29个上调),主要差异脂类包括甘油三酯(TGs)、磷脂酰胆碱(PCs)、磷脂酰乙醇胺(PEs)和鞘磷脂(SMs)。与TB0组相比,TB6组有126个脂质物种发生显著改变(110个上调,16个下调),主要差异脂类包括TGs、PCs和PEs。
将HC组与TB0组的脂质组学差异与MR分析结果取交集,鉴定出两个脂质:PC(18:2/18:2)和PC(14:0/20:4)。比较TB0和TB6组,鉴定出两个脂质:PC(18:2/18:2)和PC(18:0/20:4)。值得注意的是,所有三个显著改变的脂质都属于PCs,提示PCs可能在结核病的发病和进展中发挥重要作用。
MR分析显示,PC(18:2/18:2)(OR = 1.0954)是结核病的潜在风险因素,而PC(14:0/20:4)(OR = 0.9002)和PC(18:0/20:4)(OR = 0.9386)是潜在保护因素。反向MR分析显示这三种代谢物与结核病之间不存在反向因果关系。这些发现表明PC(18:2/18:2)、PC(14:0/20:4)和PC(18:0/20:4)是结核病的候选生物标志物。
2.2 血浆蛋白质组学结合MR鉴定蛋白质生物标志物
对4907个血浆蛋白进行MR分析,确定了75个与结核病显著相关的血浆蛋白,其中41个是保护因素,34个是风险因素。蛋白质组学分析共鉴定出2580个蛋白质。与HC组相比,TB0组有527个DEPs(310个上调,217个下调)。TB6组与TB0组比较,有541个显著的DEPs(348个上调,193个下调)。取HC vs. TB0组和TB0 vs. TB6组的差异表达基因(Differentially Expressed Genes, DEGs)交集,鉴定出39个共同DEGs。
将HC组与TB0组的蛋白质组学结果与MR分析结果取交集,确定了两个潜在的诊断生物标志物:结合珠蛋白(Haptoglobin, HP)和视黄醇结合蛋白4(Retinol Binding Protein 4, RBP4)。将TB0组与TB6组的分析结果与MR结果取交集,确定了四个潜在的治疗生物标志物:凝血因子XIII B亚基(Coagulation Factor XIII B Subunit, F13B)、α-间胰蛋白酶抑制剂重链1(Inter-Alpha-Trypsin Inhibitor Heavy Chain 1, ITIH1)、RBP4和HP。值得注意的是,RBP4和HP在两次分析中均得到重复验证,显示出它们作为诊断和治疗生物标志物的强大潜力。
MR分析结果与蛋白质组学分析一致,显示HP水平升高与结核病风险增加相关,而RBP4、F13B和ITIH1水平升高与风险降低相关。反向MR分析显示这四种蛋白不存在反向因果关系,支持了它们作为潜在结核病生物标志物的可靠性和稳健性。
2.3 富集分析揭示生物学功能
对治疗不同阶段的DEPs进行基因本体论(Gene Ontology, GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)富集分析。GO生物过程分析显示,HC组和TB0组的DEPs显著参与体液免疫应答、脂质运输等过程,而TB0组和TB6组的DEPs与伤口愈合、凝血和止血相关。在分子功能方面,HC组和TB0组的DEPs富集在肽酶调节活性相关过程,而TB0组和TB6组的DEPs与酶活性和结合相关。在细胞组分方面,HC组和TB0组的DEPs主要位于血液微粒中,而TB0组和TB6组的DEPs集中在含胶原的细胞外基质中。
KEGG通路分析表明,HC组和TB0组的DEPs主要与免疫、代谢和炎症调节相关,而TB0组和TB6组的DEPs参与免疫和炎症调节、代谢以及细胞间相互作用。值得注意的是,HC组和TB0组的KEGG分析显示铁死亡(ferroptosis)通路显著激活,提示铁死亡与结核病发病机制之间存在潜在联系。
对HC、TB0和TB6组中鉴定出的39个共同基因进行通路富集分析。GO分析显示,这些组间在脂质运输、对有毒物质的反应和组织稳态等生物过程上存在显著差异。在分子功能上,DEPs主要与糖胺聚糖结合、肽酶调节活性和硫化合物结合相关。细胞组分分析显示这些蛋白主要富集在血液微粒中。KEGG通路富集揭示了其在补体、凝血级联、黏着斑、凋亡、脂质和动脉粥样硬化等关键通路中的参与。这些发现为了解结核病进展中涉及的生物过程提供了进一步的理解。
2.4 基于脂质和蛋白质生物标志物的多组学诊断和治疗模型
为了实现结核病的精确诊断和治疗预测,研究使用随机森林算法构建了多组学诊断和治疗模型。诊断模型选取了两个差异脂质(PC(18:2/18:2)和PC(14:0/20:4))和两个DEPs(HP和RBP4)作为输入特征。治疗模型选取了两个差异脂质(PC(18:2/18:2)和PC(18:0/20:4))和四个差异蛋白(HP、RBP4、F13B和ITIH1)共同作为特征。
采用十倍交叉验证(10-fold CV)客观评估模型性能。诊断模型表现出优异的判别能力,训练集ROC曲线下面积(Area Under the Curve, AUC)为0.967(95% CI: 0.928–1),十倍交叉验证的平均AUC保持在0.867(95% CI: 0.773–0.961)。同样,治疗预测模型在训练集也表现出出色的ROC性能和高分类准确度(AUC = 0.981, 95% CI: 0.956–1),十倍交叉验证的平均AUC保持在0.931(95% CI: 0.868–0.995)。这些结果表明,组合的脂质和蛋白质生物标志物对结核病及其治疗结局具有优异的诊断和预测性能。
2.5 多组学与MR鉴定结核病稳健可靠的生物标志物
通过MR和多组学分析,研究成功鉴定了用于结核病诊断和治疗预测的脂质和蛋白质生物标志物,并展示了其组合应用的巨大潜力。为了进一步探索这些生物标志物的分子功能机制并加强证据水平,研究整合了GEO数据库的转录组数据集和GeneCards数据库中与目标脂质相关的基因。对关键生物标志物进行了深入的功能富集分析和验证。
使用GEO数据集GSE28623中结核病患者的转录组数据鉴定DEGs,在结核病患者组与HC组之间共筛选出290个DEGs(177个上调,113个下调)。通过整合PC(18:2/18:2)和PC(14:0/20:4)的相关基因(PC-gene)、4907个蛋白的MR结果(MR-protein)、蛋白质组学差异表达结果(Proteomics)和GEO转录组数据(GEO),最终确定了目标生物标志物HP。
在GSE28623数据集中显示了HP的差异表达,并在GSE34608数据集中验证了这一发现。ROC分析和混淆矩阵证明HP具有优异的诊断性能(AUC = 0.965, 95% CI: 0.875–1.000)。独立的ELISA验证同样显示,与HC组相比,肺结核患者血浆中的HP水平显著上调。基于ELISA测量的HP水平的ROC分析和混淆矩阵证实了其强大的区分能力(AUC = 0.969, 95% CI: 0.903–1.000)。
根据HP表达水平对样本进行分层,并进行基因集变异分析(Gene Set Variation Analysis, GSVA)以评估组间通路差异。分析揭示了524个显著的GO通路和12个KEGG通路与HP表达相关。结果显示,在HP高表达组中,与炎症和免疫应答、脂质代谢和能量调节、信号转导和转录调控以及发育和分化相关的通路显著上调,而与抗原呈递、免疫细胞迁移、抗菌分泌、宿主防御应激反应和铁稳态相关的通路显著下调。这些发现提示,HP可能通过调节氧化应激、凋亡、炎症通路和脂质代谢,同时影响免疫应答、宿主防御应激机制和铁供应环境,从而协同损害先天性和适应性免疫屏障,为Mtb逃逸和持续感染创造条件。
3 讨论
本研究通过整合多组学和MR分析,系统揭示了结核病的潜在生物标志物及其生物学机制。首先,从遗传学角度应用MR筛选了与结核病有因果关系的血浆代谢物和蛋白,随后在临床队列中使用