基于iPSOgs-XGBoost优化框架的非小细胞肺癌亚型分类与生物标志物发现研究

《ARTIFICIAL INTELLIGENCE REVIEW》:An optimized computational framework for non-small cell lung cancer subtype classification and biomarker discovery

【字体: 时间:2025年12月10日 来源:ARTIFICIAL INTELLIGENCE REVIEW 13.9

编辑推荐:

  本研究针对非小细胞肺癌(NSCLC)分子异质性强、基因表达数据高维度特性导致的分类精度不足问题,开发了一种结合改进粒子群优化算法(iPSOgs)与XGBoost分类器的智能诊断框架。该研究通过自适应交叉机制和金分割搜索策略优化特征选择过程,在TCGA和GEO数据集上实现了0.9580的准确率和0.9879的ROC AUC,显著优于现有方法。研究发现的DSG3、KRT5等关键基因经功能富集分析证实与NSCLC发病机制相关,为肺癌精准诊疗提供了可解释的生物标志物发现新范式。

  
肺癌作为全球癌症相关死亡的主要原因,每年导致约180万人死亡,其中非小细胞肺癌(NSCLC)占所有肺癌诊断的85%。肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)作为NSCLC的主要亚型,在分子结构、细胞起源和临床病程方面存在显著差异。传统诊断方法主要依赖影像学和组织学分析,难以充分反映疾病的分子异质性,这促使研究人员探索更可靠的分子生物标志物来改善早期检测和个性化治疗。
基因表达谱分析已成为探索癌症分子景观的强大工具,但基因表达数据集固有的高维度、噪声和样本不平衡等特性,给传统统计和机器学习模型带来了严峻挑战。这些模型往往面临过拟合、泛化能力有限以及特征重要性解释困难等问题。尽管深度学习等方法在癌症基因组学中显示出潜力,但尚未有研究将元启发式优化算法专门应用于LUAD和LUSC的分类及生物标志物发现。
针对这些挑战,Mohammed Qaraad等研究人员在《Artificial Intelligence Review》上发表了题为"An optimized computational framework for non-small cell lung cancer subtype classification and biomarker discovery"的研究论文,提出了一种名为iPSOgs的创新优化框架。该框架通过整合改进的粒子群优化算法与XGBoost分类器,为NSCLC亚型分类和生物标志物发现提供了新的解决方案。
本研究采用了几项关键技术方法:首先,从TCGA数据库获取了LUAD(589样本)和LUSC(552样本)的RNA-seq数据,并引入独立验证集GSE81089(173样本);其次,使用DESeq2进行差异基因表达分析,筛选出2,199个显著差异表达基因;第三,开发了iPSOgs算法,结合自适应交叉机制和金分割搜索策略,同步优化基因选择和XGBoost超参数;最后,通过SHAP分析、GO/KEGG富集分析和PPI网络构建,验证了生物标志物的生物学意义。
5. Proposed Diagnostic Framework for NSCLC
研究人员构建了iPSOgs-XGBoost诊断框架,该框架包含四个关键阶段:数据整合与预处理、差异表达分析特征降维、iPSOgs优化和XGBoost分类。在TCGA数据集上经过五折交叉验证,该模型达到了0.9528的准确率,在独立验证集GSE81089上更是达到了0.9480的准确率和0.9955的ROC AUC,显著优于其他优化算法和基线机器学习模型。
5.4.3. Comparison with Existing Literature Methods
与现有最先进方法相比,iPSOgs-XGBoost框架在分类性能上实现了显著提升。例如,Zhan等人(2025)使用1D CNN结合DESeq2基因选择的方法准确率为0.9381,而本研究达到了0.9528的准确率,在精准度(0.9625)和F1分数(0.95)等指标上也表现更优,确立了NSCLC亚型预测的新性能基准。
5.5.1. Performance Evaluation of the Optimized Model
模型性能评估显示,iPSOgs-XGBoost在区分LUAD和LUSC亚型方面表现出卓越的判别能力。混淆矩阵分析表明,571个LUAD样本和522个LUSC样本被正确分类,分类准确率分别为96.9%和94.6%,错误分类极少,表明模型在两个亚型间具有均衡的性能。
5.5.3. External Validation on an Independent Dataset
在独立数据集GSE81089上的外部验证进一步证实了模型的泛化能力。该模型在未见数据上保持了高预测准确性,测试准确率达到0.9480,F1分数0.9280,召回率0.8657,精准度1.0000,ROC AUC高达0.9955。SHAP可解释性分析显示,DSG3、SPRR2E和KRT5等关键基因贡献一致,强调了所选特征的生物学相关性和稳定性。
5.5.4. Biological Relevance and Pathway Analysis
功能富集分析揭示了top20基因与表皮发育、角质化等生物学过程的显著关联。KEGG通路分析显示角质化途径、细胞粘附分子(CAMs)和IL-17信号通路最为富集。PPI网络分析进一步确认了DSG3和KRT5作为中心节点的作用,这些基因在维持上皮完整性方面具有关键功能。
6. Discussion
研究讨论部分指出,尽管iPSOgs-XGBoost框架显示出卓越性能,但仍存在一些局限性。包括转录组数据相对于样本量的高维度可能带来的过拟合风险、仅依赖转录组数据可能无法完全捕捉NSCLC的多层次生物复杂性,以及不同测序平台可能产生的技术变异影响。未来研究将侧重于扩大多组学数据集验证、实验确认生物标志物因果关系以及进行前瞻性研究评估临床泛化能力。
7. Conclusion
本研究开发的iPSOgs-XGBoost框架通过智能优化基因选择和模型参数,实现了NSCLC亚型的高精度分类和生物标志物发现。该框架在内部交叉验证和独立外部数据集上均表现出优异的分类性能、泛化能力和可解释性。发现的DSG3、SPRR2E和KRT5等关键基因具有明确的生物学意义,为肺癌精准医疗提供了有效的诊断工具和潜在的 therapeutic targets。该研究展示了元启发式优化算法在生物医学数据分析中的巨大潜力,为复杂疾病分子分型提供了新思路。
研究的创新之处在于将数学精度(通过基于排名的分配和混沌映射集成)、自适应群体优化(通过金分割搜索)和生物启发优化(来自PSO)协同组合,有效解决了癌症基因组学固有的复杂性。随着进一步验证和优化,iPSOgs-XGBoost框架有望在临床环境中实现转化应用,为肺癌患者提供更精准的诊断和治疗策略。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号