编辑推荐:
在癌症致死率居高不下的背景下,研究人员开展了 “Towards precision oncology: a multi?level cancer classification system integrating liquid biopsy and machine learning” 主题研究。他们利用血浆 cfDNA/ctDNA 突变和蛋白质生物标志物构建多水平分类系统,该系统 AUC 达 98.2%,准确率 96.21%,有助于癌症早检和临床决策 。
癌症,这个全球健康的 “头号公敌”,每年都无情地夺走数百万人的生命。据统计,全球每年因癌症死亡的人数高达千万级别,而且在发达国家,这一数字还呈上升趋势。早期发现癌症,对于提高患者的生存率至关重要,就像在黑暗中点亮一盏明灯,为及时治疗提供宝贵的机会。然而,目前临床缺乏有效的早期癌症检测手段,尤其是针对多种癌症的联合检测。在这样的困境下, Mansoura University 和 New Mansoura University 的研究人员决心攻克这一难题,他们开展了一项极具意义的研究,并将成果发表在《BioData Mining》上。
研究人员旨在利用机器学习(ML)技术,基于液体活检数据,开发一种多水平癌症分类系统,以实现对多种癌症的早期精准检测。这项研究意义非凡,若成功,将为癌症的早期诊断和治疗带来革命性的变化,极大地改善患者的预后。
为开展此项研究,研究人员用到的主要关键技术方法如下:首先,使用公开的 Cohen 等人的数据集,包含血浆 cfDNA/ctDNA 突变、蛋白质生物标志物浓度和临床特征等数据。然后,采用多数投票特征选择过程,结合信息价值(IV)、卡方(Chi-Square)等六种特征选择方法确定关键特征。最后,运用极端梯度提升(XGBoost)、随机森林(RF)等多种机器学习分类器进行模型训练和分类 。
下面介绍具体的研究结果:
- 数据处理与特征选择:将原始数据集进行多水平二元分类,构建七个针对不同癌症类型的数据集。通过多数投票特征选择方法,从 43 个特征中筛选出对各癌症类型分类最重要的特征,如在正常与癌症分类中,筛选出 IL-8、IL-6 等 24 个特征 。
- 模型训练:针对每个数据集,使用 XGBoost、RF、额外树(ET)和二次判别分析(QDA)等分类器进行训练,部分阶段采用集成软投票方式提升性能。例如,在第一级使用 XGBoost,平均准确率达 98.35%,平均 AUC 为 99.74%;第二级采用 XGBoost 和 RF 的软投票组合,平均准确率为 83.52%,平均 AUC 为 92.11% 。
- 模型评估:在测试集上评估模型性能,结果显示该系统整体平均准确率为 96.21%,精确率为 97.74%,召回率为 94.8%,F1 分数为 96.13%,特异性为 96.08%,平衡准确率为 95.44%,AUC 为 98.2%。各分类级别的模型在区分不同癌症类型上表现出色,部分级别实现了完美分类 。
- 对比分析:与之前的研究方法(如 CancerSEEK、CancerA1DE 等)相比,该系统在准确率和 AUC 等指标上表现更优,展现出更强的分类能力和可靠性 。
在研究结论和讨论部分,该多水平癌症分类系统展现出诸多优势。其逐步二元分类方法有效平衡了类分布,避免了数据不平衡带来的问题;多数投票特征选择过程整合多种方法,增强了特征选择的稳定性和模型的可解释性;通过 SHAP 分析,明确了不同癌症类型分类中的关键生物标志物,为临床诊断提供了重要依据。不过,研究也存在一些局限性,如缺乏真实世界中含炎症或其他非癌症疾病个体的对照数据,缺少独立外部测试集,以及数据集内癌症病例定义明确但实际应用中可能存在异质性等问题。
总体而言,这项研究为癌症的早期诊断提供了新的方向和有力工具,虽然存在不足,但为后续研究奠定了坚实基础。未来,有望通过扩大癌症类型检测范围、整合多模态数据、开展外部验证等方式,进一步完善该系统,使其在临床实践中发挥更大的作用,为全球癌症防治事业贡献力量。