基于深度学习的基因表达数据对肺癌严重程度的分类研究

【字体: 时间:2025年05月15日 来源:BMC Medical Informatics and Decision Making 3.3

编辑推荐:

  为解决基因数据分类中类不平衡、过拟合等问题,研究人员开展基于深度学习(DL)的肺癌(LUAD 和 LUSC)分期分类研究。采用优化 CNN 模型结合 F 检验特征选择,获 93.94%(LUAD)和 88.42%(LUSC)准确率,为肺癌精准诊疗提供新方向。

  肺癌作为全球主要健康威胁,其早期诊断与精准分期一直是医学难题。当前临床依赖的 CT、MRI 等影像学手段常难以在早期发现肿瘤,且基因表达数据因样本量少、特征维度高、类不平衡等问题,导致传统机器学习模型易出现过拟合,分类效能受限。如何利用高通量测序技术获取的基因数据,结合深度学习方法实现肺癌严重程度的精准分类,成为亟待突破的科学问题。
为此,阿联酋沙迦大学(University of Sharjah)的研究人员开展了一项基于深度学习的肺癌分期分类研究。他们聚焦两种常见的非小细胞肺癌(NSCLC)亚型 —— 肺腺癌(LUAD)和肺鳞状细胞癌(LUSC),利用来自癌症基因组图谱(TCGA)的基因表达数据,构建并优化卷积神经网络(CNN)模型,旨在通过基因层面的特征分析提升肺癌严重程度分类的准确性。该研究成果发表在《BMC Medical Informatics and Decision Making》,为肺癌的分子诊断提供了新的技术路径。

研究主要采用以下关键技术方法:首先从 TCGA 获取 LUAD(566 例)和 LUSC(487 例)的基因表达数据及临床信息,通过数据清洗、合并患者 ID,将多分类的肿瘤分期(I-IV 期)转化为 binary classification(非严重 / 严重)以平衡样本分布;运用 F 检验(F-test)特征选择方法,从 20,530 个基因中筛选出关键特征(LUAD 保留 5000 个,LUSC 保留 3000 个);采用 hold-out 法(80-20 或 70-30 数据分割)训练 CNN 模型,并通过调整批次大小、卷积层数等超参数优化模型性能。

研究结果


1. 模型性能对比


在未使用特征选择时,传统机器学习模型(SVM、RF、KNN 等)在 LUAD 和 LUSC 数据集上的准确率仅为 56%-63%,而 CNN 模型准确率分别为 61.49% 和 57%。引入 F 检验特征选择后,所有模型性能显著提升:CNN 在 LUAD 和 LUSC 中分别达到 93.94% 和 88.42% 的准确率,显著优于 SVM(79%、76%)、RF(65%、67%)等传统模型。这表明特征选择能有效降低数据维度,提升模型对关键基因特征的捕捉能力。

2. 特征选择与超参数优化的影响


通过对比 15%(8000 基因)、25%(5000 基因)、40%(3000 基因)的特征保留比例,发现 LUAD 在 5000 基因时准确率最高,LUSC 在 3000 基因时表现最佳。超参数调整显示,批次大小为 128、学习率 0.01 时,CNN 收敛速度与准确率达到平衡,训练时间分别为 10.63 秒(LUAD)和 5.7 秒(LUSC),验证了特征选择对降低计算成本的重要性。

3. 与现有研究的对比


与既往研究相比,该模型在肺癌严重程度分类中表现出显著优势。例如,文献中 CNN 用于肺癌预测的最高准确率为 84.8%,而本研究通过优化特征选择和模型结构,将准确率提升至 94%。这一结果凸显了深度学习在整合高维基因数据与临床表型中的潜力。

结论与讨论


本研究通过构建优化的 CNN 模型,结合 F 检验特征选择,成功解决了基因数据分类中的类不平衡和过拟合问题,为 LUAD 和 LUSC 的严重程度分类提供了高效的计算模型。研究发现,筛选出的关键基因(如 LUAD 的 5000 基因和 LUSC 的 3000 基因)有望成为临床分子诊断标志物,辅助医生通过基因检测实现肺癌的早期精准分期,推动个性化治疗的发展。尽管深度学习模型存在训练时间较长的局限性,但特征选择方法的应用显著提升了计算效率,为其临床转化奠定了基础。该研究不仅拓展了深度学习在肿瘤基因组学中的应用,也为其他高维生物数据的分析提供了方法论参考,具有重要的科学意义和临床转化价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号