FIRE(特征识别与优化引擎):基于集成机器学习识别胶质母细胞瘤稳健分子特征的新框架

【字体: 时间:2025年10月27日 来源:Computational Biology and Chemistry 3.1

编辑推荐:

  本文提出FIRE(特征识别与优化引擎)这一集成机器学习框架,通过合并多组学数据集和组合线性/非线性算法,成功鉴定出33个能稳定区分胶质母细胞瘤(GBM)与对照样本的基因特征。该研究克服了高维度数据(high-dimensional data)、批次效应(batch effects)和肿瘤异质性等挑战,在独立验证中展现出优越的预测性能,为复杂疾病的生物标志物发现提供了新范式。

  
亮点
  • 开发了用于识别稳健疾病特征的新型计算框架FIRE
  • 整合六个基因表达数据集并采用组合批次效应校正策略
  • 通过集成机器学习识别出33个胶质母细胞瘤核心基因
  • 显著优于现有分子特征的预测性能
  • 框架适用于各种复杂疾病的研究
数据收集与预处理
研究从基因表达综合库(GEO)中检索胶质母细胞瘤相关基因表达数据,并实施严格过滤标准确保数据质量。数据集需符合"智人"来源且仅包含组织样本,排除血液样本、免疫细胞样本和治疗干预等数据。预处理阶段包含关键的质量控制步骤。
准备模型就绪数据
基因表达综合库(GEO)数据集包含六项研究的216个样本,分为94个对照和122个胶质母细胞瘤病例(参见数据S1)。所有数据集共包含15,435个基因。采用ComBat批次效应去除(CBER)方法确保可比性并消除来源引起的偏差。在批次效应去除前,数据集显示出六个明显聚类,表明研究来源或批次存在混杂效应(图2A)。批次效应去除后,这些聚类得到有效缓解(图2B),为后续分析提供了更可靠的数据基础。
讨论
我们开发了一个通过整合数据和方法多样性来识别稳健疾病特征的框架。通过合并多样化数据集,我们旨在最大化方差以提升预测性能。该预测模型的独特之处在于融合了线性和非线性机器学习算法,充分利用各自优势捕捉复杂数据中的精细模式。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号