基于生物信息学与集成学习挖掘牙周炎新型生物标志物及治疗靶点

【字体: 时间:2025年10月04日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对牙周炎分子机制不明、缺乏早期诊断标志物的问题,通过整合集成机器学习(ELM)与生物信息学方法,对GEO数据集(GSE10334)进行深度挖掘。研究利用Bagging和Boosting模型筛选出21个关键基因,并通过蛋白互作(PPI)网络分析鉴定出HNRNPC、TSR1、PLRG1、GOPC等枢纽基因,揭示其在免疫调节、RNA剪接和细胞骨架调控中的核心作用。突变和拷贝数变异(CNA)分析进一步凸显这些基因的遗传多样性。该研究为牙周炎的早期诊断、靶向治疗及个体化医疗提供了分子基础,具有重要的临床转化潜力。

  
牙周炎是一种全球范围内广泛流行的炎症性疾病,不仅是成年人牙齿丧失的主要原因,更与糖尿病、心血管疾病等系统性疾病密切相关。尽管其发病率居高不下,但牙周炎的分子机制至今仍未完全阐明。当前诊断主要依赖临床和影像学检查,往往发现时已进入晚期阶段;治疗也缺乏针对性,疗效因人而异。这种现状迫切呼唤更早期、更精准的诊断方法和治疗策略。
为此,研究人员开展了一项整合生物信息学与机器学习的前沿研究,成果发表在《Scientific Reports》上。他们利用公开的基因表达数据库(GEO)中牙周炎数据集GSE10334,结合集成学习模型(包括Bagging和Boosting),深入挖掘牙周炎相关的关键基因和通路,为理解该疾病的分子基础提供了新视角。
研究采用了几项关键技术方法:首先从GEO获取了247例样本(64健康、183患病)的转录组数据,经缺失值填补和Z-score标准化预处理;使用SMOTE技术平衡数据集以优化模型训练;通过Bagging和Boosting两种集成学习模型筛选特征基因,并以5折交叉验证评估性能;进一步通过STRING数据库构建蛋白互作网络(PPI),利用Cytoscape插件ClueGO和CytoHubba进行功能富集和Hub基因鉴定;最后借助cBioPortal等平台对枢纽基因进行突变和拷贝数变异(CNA)分析。
数据获取与预处理
研究人员从GEO数据库下载了GSE10334数据集,包含247个牙龈组织样本(64个健康对照和183个牙周炎患者)。该数据集经过缺失值填补和Z-score标准化处理,以确保数据一致性和可比性。为解决类别不平衡问题,采用了SMOTE过采样技术,使健康与患病样本数量达到平衡,为后续机器学习建模奠定基础。
机器学习模型开发与分析
研究采用Bagging和Boosting两种集成学习模型对样本进行分类。Bagging模型基于决策树分类器,通过Bootstrap采样构建多个弱分类器,最终以投票机制输出结果。该模型准确率达到91%,ROC曲线下面积(AUC)为0.98,显示出优异的分类性能。
Boosting模型则通过迭代调整样本权重,聚焦于难以分类的样本,进一步提升了模型表现。其准确率超过Bagging,AUC值达到1.00,实现了完全区分两类样本的目标。交叉验证结果支持了模型的稳健性和泛化能力。
常见基因鉴定
通过比较Bagging和Boosting模型特征重要性排名前200的基因,研究人员发现21个共同基因,这些基因被确定为牙周炎潜在生物标志物。这些基因在两种模型中的一致性出现,增强了其生物学意义的可靠性。
PPI网络构建与分析
利用STRING数据库构建蛋白互作网络,设置交互得分阈值0.4,生成包含318个节点和344条边的网络图。通过CytoHubba插件鉴定出四个枢纽基因(Hub Gene):HNRNPC、TSR1、PLRG1和GOPC。这些基因在网络中处于核心位置,连接度高,提示它们在牙周炎发病机制中起关键调控作用。
功能富集分析
基因本体(GO)分析显示,这些基因显著富集于多种生物过程,包括肌动蛋白丝解聚的负调控(23.85%)、高尔基体至质膜的CFTR蛋白转运调控(17.43%)和DNA生物合成负调控(10.09%)。细胞组分分析显示与经典补体途径C3/C5转化酶复合物(56%)密切相关,分子功能则涉及糖脂转移活性(27.5%)、snRNA结合(22.5%)和维生素D3 25-羟化酶活性(15%)。
通路分析发现这些基因参与剪接体(50%)和类固醇生物合成(50%)等KEGG通路;Reactome数据库分析揭示了与缺陷性C1GALT1C1导致TNPS(27.78%)、缺陷性CYP27B1导致VDDR1B(22.2%)以及RNA结合蛋白SUMO化(22.2%)相关的通路;Wikipathways分析则提示与维生素D的非经典作用(33.33%)和神经嵴细胞迁移(33.33%)等相关。
Hub基因的突变和拷贝数变异分析
对四个枢纽基因的突变和CNA分析显示,多数样本为二倍体(Diploid),但突变多样性最高,突变计数近20,000次。深缺失(Deep Deletion)和浅缺失(Shallow Deletion)样本突变计数较低,而增益(Gain)和扩增(Amplification)样本显示中等至高突变计数。错义突变和剪接变异在所有CNA类别中均有出现,但在二倍体样本中最为富集。
研究结论表明,通过集成机器学习与生物信息学方法,成功鉴定出21个牙周炎相关基因,其中HNRNPC、TSR1、PLRG1和GOPC作为枢纽基因,在RNA代谢、免疫调节和细胞自噬等过程中发挥核心作用。功能富集分析揭示了这些基因参与肌动蛋白调控、补体系统和维生素D代谢等关键通路。突变和CNA分析则显示了这些基因的遗传多样性,特别是在二倍体样本中突变负担最重。
这些发现不仅深化了对牙周炎分子机制的理解,更重要的是为开发早期诊断生物标志物和靶向治疗提供了新方向。例如,针对HNRNPC的RNA疗法、调节PLRG1的剪接活性或增强GOPC相关的自噬过程,都可能成为未来牙周炎治疗的新策略。此外,研究中所采用的整合分析方法为其他复杂疾病的研究提供了可借鉴的框架。
研究的局限性在于使用了单一 microarray 数据集,未来需要多组学数据和实验验证来进一步证实这些发现。但毫无疑问,这项工作推动了牙周炎研究向精准医疗迈进的重要一步,为实现个体化治疗奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号