基于集成机器学习与树状 Parzen 估计器预测早期胰腺癌的创新探索

【字体: 时间:2025年04月22日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  胰腺癌(PDAC)早期诊断困难,死亡率高。研究人员分析肿瘤教育血小板(TEPs)的 RNA 测序数据,利用多种机器学习(ML)算法和树状 Parzen 估计器(TPE)优化建模。结果显示 SVM:RF:GBM 集成模型表现最佳,为早期 PDAC 预测提供新方法。

  
在医学的抗癌战场上,胰腺癌(Pancreatic Ductal Adenocarcinoma,PDAC)堪称一颗 “恶性炸弹”,它每年无情地夺走超过 45 万人的生命 ,五年生存率仅在 2 - 9% 这个极低的区间徘徊。究其原因,早期诊断的困境是关键阻碍。由于缺乏精准有效的早期检测手段,多数患者确诊时,病情已发展至晚期,癌细胞四处转移,治疗难度极大。传统的检测方式在早期 PDAC 面前 “力不从心”,血液、尿液等常见的液体活检途径,虽有潜力成为无创检测的突破口,但目前仍未找到能精准识别早期 PDAC 的有效方法。肿瘤教育血小板(Tumor-Educated Platelets,TEPs)的出现带来了新希望,它能捕获肿瘤来源的 RNA,理论上可用于区分癌症患者和健康人。然而,之前基于粒子群优化(Particle Swarm Optimization,PSO)算法的 thromboSeq 平台,在早期 PDAC 检测上表现不佳,I 期预测率为 0%,II 期也仅 40% ,这迫切需要新的技术和方法来突破困境。

在此背景下,来自马来西亚理科大学医学院的研究人员勇挑重担,开展了一项意义重大的研究。他们的研究成果发表在《Biomedical Signal Processing and Control》上,为早期 PDAC 的诊断开辟了新路径。研究人员深入分析 TEPs 的 RNA 测序(RNA-seq)数据(GSE183635),致力于找到更有效的早期 PDAC 预测模型。

研究人员运用了多种关键技术方法。首先,从庞大的基因数据中筛选出早期 PDAC 特异性的差异表达基因(Differentially Expressed Genes,DEGs)作为后续建模的特征。接着,为优化模型性能,采用树状 Parzen 估计器(Tree-structured Parzen Estimator,TPE)算法对机器学习(Machine Learning,ML)模型的超参数进行调整。研究使用了线性(逻辑回归)和非线性 [支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)、XGBoost(XGB)和 LightGBM(GBM)] 等多种 ML 算法,并进行单独建模和集成建模 。此外,还对二分类的概率进行校准,以提高预测的准确性。数据来源为从基因表达综合数据库(Gene Expression Omnibus)获取的 TEPs RNA-seq 计数矩阵,并依据特定的排除标准进行筛选 。

下面来详细看看研究结果:

  • 数据集处理:从基因表达综合数据库获取 TEPs RNA-seq 计数矩阵后,依据排除标准,剔除了无完整人口统计信息(年龄、性别)以及早期癌症病例数过少的样本 ,确保后续研究数据的可靠性。
  • 识别 PDAC 特异性 DEGs:研究涉及 14 种不同疾病状态的分组,分为非癌症疾病患者和早期癌症患者两大类。通过分析,找出早期 PDAC 特异性的 DEGs,为构建精准的预测模型奠定基础 。
  • 模型构建与优化:利用 TPE 算法对多种 ML 算法进行超参数优化,结果显示 TPE 对非线性 ML 算法(SVM、RF、XGB 和 GBM)的优化效果显著。在此基础上,开展集成建模,将不同的 ML 算法进行组合。实验发现,结合 SVM、RF 和 GBM 的加权集成模型(SVM:RF:GBM 集成模型)表现最为出色 。
  • 模型性能评估:在经过校准的测试集中,SVM:RF:GBM 集成模型的受试者工作特征曲线下面积(ROC AUC)达到 0.905,灵敏度为 0.857,特异性为 0.850 。在训练集和测试集中,该集成模型通过 13 种不同性能指标评估,均展现出稳定一致的性能,而单个模型则不具备这种稳定性。

研究结论表明,经 TPE 优化的 SVM:RF:GBM 集成模型是一种全新的早期 PDAC 预测模型。这项研究意义非凡,它首次将 TPE 超参数调整、集成建模和概率校准策略相结合,为早期 PDAC 的检测提供了更精准、可靠的方法,打破了以往早期 PDAC 诊断的困境。同时,该研究提出的预测模型构建框架,为癌症诊断领域提供了新思路,有望推动其他癌症早期诊断技术的发展,助力医学在抗癌斗争中取得更大突破,让更多患者能在癌症早期被发现,从而获得更好的治疗机会和生存希望。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号