基于随机森林模型预测卵巢交界性肿瘤复发:精准医疗的新突破

【字体: 时间:2025年05月12日 来源:Journal of Cancer Research and Clinical Oncology 2.7

编辑推荐:

  卵巢交界性肿瘤(BOT)术后存在复发风险,影响患者预后。研究人员开展基于机器学习预测 BOT 复发的研究,构建多种模型,发现随机森林(RF)模型性能最优。该模型可辅助临床决策,为患者提供精准治疗方案。

  在女性生殖系统疾病的领域中,卵巢交界性肿瘤(Borderline Ovarian Tumor,BOT)就像一个神秘又棘手的 “小怪兽”。它介于良性和恶性肿瘤之间,有着独特的生物学行为。BOT 占所有卵巢上皮肿瘤的 10 - 25%,大多发生在 30 - 50 岁的育龄女性身上,不少患者在确诊时还未完成生育计划。虽然 BOT 患者的总体预后较好,5 年总生存率能达到 80 - 95% ,20 年生存率也有 80% ,但仍有 5 - 20% 的患者会面临肿瘤复发的困扰。这不仅影响患者的健康,还对她们的生育期望造成了巨大冲击。
目前,手术是治疗 BOT 的主要手段,包括生育保留手术(Fertility - Sparing Surgery,FSS)和根治性手术(Radical Surgery,RS)。随着诊断技术进步和患者对生育的需求增加,FSS 应用越来越多。然而,FSS 可能会提高肿瘤复发率,这让医生和患者在选择手术方式时陷入两难。而且,现有的预测 BOT 复发的模型存在诸多不足,比如样本数据不平衡、影响变量复杂,以及随访时间长且不一致,导致模型的准确性和适用性大打折扣。因此,找到一种更精准的预测 BOT 复发的方法迫在眉睫,它对于指导术后治疗、帮助患者做出合理的生育决策至关重要。

为了解决这些难题,中国医科大学附属盛京医院的研究人员挺身而出,开展了一项极具意义的研究。他们的研究成果发表在《Journal of Cancer Research and Clinical Oncology》上,为 BOT 的临床治疗带来了新的曙光。

研究人员在开展这项研究时,运用了多种关键技术方法。首先,他们收集了中国医科大学附属盛京医院 2011 年 5 月至 2022 年 8 月期间确诊为 BOT 患者的真实世界数据,这些数据涵盖了患者的多个维度信息,如人口统计学特征、术前肿瘤标志物、手术临床数据等。然后,采用 Spearman 相关分析筛选变量,通过合成少数过采样技术(Synthetic Minority Over - sampling Technique,SMOTE)处理数据不平衡问题。接着,构建了包括逻辑回归(Logistic Regression,LG)、随机森林(Random Forest,RF)、梯度提升(Gradient Boosting,GB)、多层感知器(Multilayer Perceptron,MLP)和支持向量机(Support Vector Machine,SVM)在内的五种机器学习模型进行复发预测,并使用多种评估指标对模型性能进行评估。

下面来看看具体的研究结果:

  • 患者特征与数据处理:研究初始纳入 1171 例 BOT 患者,排除部分不符合标准的患者后,最终对 660 例患者进行分析。其中复发患者 76 例,未复发患者 584 例,复发组与未复发组比例约为 1:7.6。通过 SMOTE 对数据进行过采样,得到 1168 例数据,使复发和未复发患者数量相等,且过采样后的数据保留了原始数据的特征分布。
  • 相关性分析与特征选择:利用 Spearman 相关系数矩阵分析临床变量间的关系,选取绝对相关系数≥0.5 的变量作为模型输入特征,最终确定了年龄、 parity(产次)、绝经状态、生育保留手术、手术完整性、大网膜切除术、淋巴结切除术、腹膜种植和肿瘤侧别(单侧或双侧)这九个变量纳入模型。
  • 机器学习模型的开发与评估:以筛选出的九个特征作为自变量,构建五种机器学习模型。经过五折交叉验证和随机搜索优化超参数后,比较各模型性能。结果显示,RF 模型表现最为出色,其 AUC 达到 0.8869,在测试集中 AUC 为 0.841,PPV(阳性预测值)为 0.752,ACC(准确率)为 0.769,REC(召回率)为 0.803,SPE(特异性)为 0.735。绘制的校准曲线也表明 RF 模型预测一致性强。通过 SHAP 分析发现,生育保留手术和年龄对复发预测影响较大。此外,研究人员还开发了基于 RF 模型的网络计算器,方便临床应用。
  • 临床应用:决策曲线分析(Decision Curve Analysis,DCA)和临床影响曲线(Clinical Impact Curve,CIC)评估显示,RF 模型在一定阈值概率范围内具有较高的净效益,能有效减少不必要干预和漏诊,在识别高危人群方面效率较高。基于复发预测模型进行的无复发生存(Recurrence - Free Survival,RFS)分析表明,该模型在测试集中具有较高的时间依赖性 AUC(0.871)和一致性指数(0.779),对无复发生存的预测能力较强。

在研究结论和讨论部分,研究人员开发的基于 RF 的模型为预测 BOT 复发提供了有效工具。与传统统计模型相比,机器学习模型能更好地处理复杂数据,捕捉变量间的非线性关系。RF 模型不仅预测性能优异,还能通过 SHAP 分析明确关键影响因素。这对于指导临床决策意义重大,比如对于年轻未生育且选择 FSS 的患者,医生可根据模型预测结果,建议其尽早规划生育;对于已完成生育的患者,可考虑进行全面分期手术以降低复发风险。同时,研究人员开发的网络可视化平台也提高了模型的可解释性和临床实用性。

不过,这项研究也存在一些局限性。作为回顾性研究,可能存在选择偏倚,影响模型的普适性;虽然 SMOTE 处理了数据不平衡问题,但仍可能存在残余偏倚影响预测结果。未来的研究可以考虑纳入影像学数据和基因组信息,如 MRI(磁共振成像)检测结果和 CHEK2 基因相关信息等,进一步提升模型性能和适应性,更好地服务于 BOT 患者的个性化治疗和管理。总的来说,这项研究为 BOT 的复发预测和临床治疗开辟了新的道路,具有重要的理论和实践价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号