《Pregnancy Hypertension》:Artificial Intelligence-based analysis of pre-eclampsia gene expression profiles for identification of novel potential pre-eclampsia diagnostic biomarkers
编辑推荐:
本研究提出一种基于机器学习的双层次生物标志物发现方法,整合多组学数据并利用递归特征消除(RFE)筛选差异表达基因(DEGs),构建具有生物学意义的基因签名。通过XGBoost模型验证,发现锌指蛋白家族、瘦素信号通路调控因子及子宫血管重塑相关基因具有显著诊断价值,并通过外部数据集验证其泛化性,为子痫前期早期诊断提供新策略。
赛义德·穆罕默德(Syed Mohammad)| 贾伊萨利·钱德拉塞卡(Vaisali Chandrasekar)| 奥马尔·阿布马尔祖克(Omar Aboumarzouk)| 阿卜杜勒法塔赫·埃尔·奥姆里(Abdelfatteh El Omri)| 阿贾伊·维克拉姆·辛格(Ajay Vikram Singh)| 萨拉达·普拉萨德·达库阿(Sarada Prasad Dakua)
卡塔尔哈马德医疗集团(Hamad Medical Corporation)外科部门
摘要
子痫前期(PE)是一种多因素、异质性的妊娠期高血压疾病,给诊断和治疗带来了重大挑战。识别可靠且具有普遍适用性的生物标志物对于早期发现和改善临床结果至关重要。在本研究中,我们提出了一个基于机器学习的框架,用于分析基因表达谱,以发现潜在的子痫前期诊断生物标志物。我们整合了多个公开的RNA-seq数据集,并识别出差异表达基因(DEGs),构建了一个筛选后的基因子集。通过递归特征消除(RFE)方法,我们评估了包含20到50个特征的最佳基因特征组合。在测试的多种分类器中,XGBoost在准确分类子痫前期样本方面表现始终优于其他分类器。值得注意的是,最具预测性的基因集显示锌指蛋白家族、瘦素信号调节因子以及通过G蛋白偶联雌激素受体参与子宫血管重塑的蛋白质富集。这些发现为子痫前期的分子机制提供了新的见解,并突出了有前景的候选生物标志物,有助于诊断模型的开发。我们的方法强调了机器学习在推进复杂妊娠疾病个性化及早期诊断方面的潜力。
引言
子痫前期(PE)是一种多方面的严重妊娠疾病,影响全球约8%的孕妇,显著增加了孕产妇和围产期的发病率和死亡率[1]、[2]、[3]。该病的特点是高血压会损害肝脏和肾脏等器官,从而影响母亲的健康[1]、[4]。子痫前期通常在妊娠20周后通过高血压和蛋白尿来诊断。由于症状与其他疾病重叠,其诊断常常被延误或不准确[5]。尽管进行了大量研究,但其确切病因仍不明确。目前对子痫前期的管理策略主要集中在预防和监测上,包括早期风险评估和识别、药物治疗(如钙补充剂[6]和低剂量阿司匹林[7])、饮食和生活方式的改变[8]、密切监测母亲和胎儿的健康状况,以及治疗现有的疾病(如糖尿病或高血压)。此外,还研究了实验性治疗(如二甲双胍和他汀类药物[9]、[10]、[11])的血管和抗炎作用。但由于缺乏关于这些药物在妊娠期间安全性和有效性的临床试验数据,尽管初步研究表明它们可能减轻与子痫前期相关的氧化应激和内皮功能障碍[12],但尚未被广泛采用。然而,在子痫前期情况下,通常的处理方式是分娩胎儿,这可能导致早产和相关并发症,因为对子痫前期发病机制的理解还不够充分。
最近的研究和信息学进展揭示了胎盘功能障碍以及一些子痫前期的遗传因素[13]的作用。例如,正常孕妇和子痫前期孕妇的无细胞RNA存在差异[14],并且可以根据正常妊娠的基因表达模式来预测子痫前期的风险[14]。虽然生物信息学方法主要使用传统模型来理解子痫前期中关键基因的生物学意义,但具有数据整合能力、可扩展性和自动化的先进模型尚未得到充分研究[15]。鉴于遗传因素的复杂性和规模,目前正采用机器学习(ML)自动化模型来应对高维数据相关的挑战[16]、[17]。然而,许多现有研究要么仅依赖差异基因表达(DGE)分析,要么仅基于ML的特征选择,而没有整合生物学相关性,导致生物标志物的临床可解释性和普遍适用性有限。此外,很少有研究在外部数据集上验证这些生物标志物的有效性,这引发了对其可靠性的担忧。
子痫前期患者在症状和严重程度上存在异质性;在这种异质性情况下,使用生物信息学方法识别关键基因具有挑战性。然而,应用ML模型在处理大量数据时具有优势[18]、[19]、[20]、[21]。据我们所知,目前尚不存在一个全面的、经过外部验证的、基于胎盘表达数据的基因特征组合,能够在临床上有效用于早期预测子痫前期。
了解胎盘中基因的组织特异性表达[22]对于揭示导致子痫前期发生和进展的机制至关重要。将ML与基因组数据分析相结合,为识别子痫前期的关键生物标志物提供了强大的方法[21]、[23]、[24]。多项研究采用了ML和深度学习(DL)来研究基因和生物标志物。Sharma等人[25]使用随机森林(RF)等ML系统,通过差异表达基因(DEG)来预测反复着床失败和子痫前期等状况。Yadama等人[26]结合ML和其他统计方法,识别出母体哮喘、超重BMI、维生素D缺乏和子痫前期中的差异表达基因和共享基因特征。He等人[27]结合个性化通路分析和ML算法,利用基因表达组(GEO)数据库中的多个队列,诊断出由九条核心通路组成的子痫前期,并报告了令人满意的结果。Bai等人[28]使用多种统计方法筛选差异表达基因,并使用支持向量机递归特征消除等ML相关方法来识别关键的子痫前期生物标志物。这些研究展示了ML在子痫前期生物标志物发现方面的潜力,但大多数研究在多维度生物学验证方面做得不够充分,更多关注统计性能而非临床效果。同样,Sufriyana等人[23]探索了ML方法来识别代表母胎界面的血液生物标志物,以预测COVID-19感染中的子痫前期。他们确定ITGA5、IRF6和P2RX7为潜在的血液生物标志物。虽然FLT1被用于子痫前期风险评分评估,但sFlt-1/PlGF比率未能全面覆盖早期病理机制和结果,这表明需要更具体和更具指示性的生物标志物[29]。因此,研究继续探索细胞游离RNA和单细胞RNA测序[14]、[30]等替代RNA来源,以识别生物标志物。尽管这些研究旨在通过各种方法识别转录组标志物,但其临床应用仍有限。这突显了利用先进的特征选择策略从转录组数据中获取更深入见解的重要性。因此,本研究采用了一种双层生物标志物发现策略,结合了RF模型的RFE和DGE分析。这种综合方法旨在识别不仅具有统计预测性,而且在生物学上也相关的基因子集。与以往的研究不同,我们的策略强调减少特征冗余和噪声,同时最大化临床适用性。通过全面的交叉验证方法获得了进一步的泛化能力和鲁棒性。我们在独立数据集上进行了外部验证,以确保所识别生物标志物的可重复性和可靠性。据我们所知,这是第一份使用这种双层方法结合统计、基于ML和生物学方法以及全面验证框架进行生物标志物识别的报告。
本研究的主要研究问题是:ML算法是否能够从基因表达数据中有效识别出子痫前期的关键生物标志物。解决这一问题对于弥合子痫前期早期诊断的差距至关重要。我们假设,当ML模型与复杂的特征选择策略和严格的验证相结合时,可以揭示新的生物标志物,这些标志物不仅有助于预测子痫前期,还能提供对驱动该疾病的潜在生物学过程的更深入理解。通过利用先进的计算技术,本研究旨在识别可以在临床环境中实施的潜在生物标志物,以实现早期诊断。
方法部分
方法论
为了广泛受益,我们公开了用于模型开发的代码。2所提出的流程示意图见图1。
结果
为了研究子痫前期的预测基因标志物,我们应用了一个结构化的分析流程,包括数据预处理、差异表达分析、基于机器学习的特征选择以及预测性和生物学相关基因的整合。这种方法旨在识别一组可靠的基因,以便进行后续的生物学解释和外部验证(见图1)。
在分析模型性能之前,评估数据的质量至关重要
讨论
由于缺乏可靠的分子标志物,准确诊断和及时预测子痫前期等复杂疾病在临床实践中仍然是一个重大挑战[38]、[39]。随着转录组数据量的不断增加[40],利用这些资源通过整合分析技术来揭示可靠的生物标志物和可操作的疾病特征变得至关重要。通过使用数据驱动的框架来寻找能够区分不同情况的基因
结论
本研究在理解子痫前期的异质性和通过非传统框架识别新生物标志物方面做出了重要贡献。通过结合使用RFE和DEG分析,识别出了一组既具有诊断信息性又在生物学上相关的新型生物标志物。这种双层策略提高了跨数据集的泛化能力和可重复性。ML模型对这些标志物的诊断潜力得到了很好的验证
CRediT作者贡献声明
赛义德·穆罕默德(Syed Mohammad): 主要手稿撰写、编辑、文献回顾和差距识别、方法论和图表制作。贾伊萨利·钱德拉塞卡(Vaisali Chandrasekar): 主要手稿撰写、编辑、文献回顾和差距识别、概念化、生物标志物识别及其重要性。奥马尔·阿布马尔祖克(Omar Aboumarzouk): 生物标志物验证。阿卜杜勒法塔赫·埃尔·奥姆里(Abdelfatteh El Omri): 概念化、生物标志物识别及其重要性。阿贾伊·维克拉姆·辛格(Ajay Vikram Singh): 生物标志物验证。萨拉达·普拉萨德·达库阿(Sarada Prasad Dakua): 概念化、生物标志物识别
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。
致谢
本出版物得到了哈马德医疗集团(Hamad Medical Corporation)的医学研究中心项目(MRC-01-23-607和MRC-01-22-295的部分资助。本文中的发现反映了作者的工作成果,仅代表作者本人的责任。开放获取资金由卡塔尔国家图书馆提供。所有作者均审阅并编辑了手稿。