编辑推荐:
肌层浸润性膀胱癌(MIBC)易转移、预后差。为解决预测难题,研究人员利用 SEER 数据库数据开展相关研究。他们构建多种机器学习(ML)模型,发现 CatBoost 模型预测转移效果佳,“RSF + Enet[alpha = 0.8]” 模型预测预后良好,为临床决策提供了有力支持。
在泌尿系统的众多疾病中,膀胱癌是一种较为常见且棘手的恶性肿瘤。其中,肌层浸润性膀胱癌(MIBC)更是因其侵袭性强、易发生转移,成为医学界重点关注的难题。通常情况下,膀胱癌分为非肌层浸润性膀胱癌(NMIBC)和肌层浸润性膀胱癌,NMIBC 相对局限在早期阶段,而 MIBC 一旦突破膀胱的肌肉层,就如同打开了 “潘多拉魔盒”,癌细胞极易通过淋巴和血管系统扩散到身体其他部位,如肺部、肝脏和骨骼。这不仅大大增加了治疗的难度,也使得患者的生存率大幅下降,转移性 MIBC 患者的五年生存率仅在 5% - 15% 之间。目前,针对 MIBC 的治疗手段有限,主要的治疗方式包括以顺铂为基础的新辅助化疗(NAC)、根治性膀胱切除术(RC)和盆腔淋巴结清扫术(PLND)等,但这些治疗方法都存在一定的局限性。例如,RC 是一种侵入性很强的手术,存在较高的围手术期风险,许多患者因身体条件等因素无法接受该手术,而且术后还可能出现各种并发症,严重影响患者的生活质量。因此,准确预测 MIBC 的转移风险和预后情况,对于制定个性化的治疗方案、提高患者的生存率至关重要。
在这样的背景下,来自郑州大学附属洛阳中心医院等研究机构的研究人员开展了一项极具意义的研究。他们致力于开发能够精准预测 MIBC 患者远处转移和预后的机器学习(ML)模型,相关研究成果发表在《Scientific Reports》上。
为了实现这一目标,研究人员采用了多种关键技术方法。首先,他们从 SEER 数据库收集了 2000 - 2020 年 MIBC 患者的临床病理信息,同时收集了河南科技大学第一附属医院 2010 - 2020 年的回顾性数据。其次,运用单变量和多变量逻辑回归分析、递归特征消除(RFE)等方法进行特征选择,确定用于模型构建的关键变量。最后,利用 13 种 ML 算法构建预测远处转移的模型,采用 10 种 ML 算法构建预后模型,并通过多种评估指标对模型进行验证和比较。
研究结果如下:
- 患者特征及数据分组:共纳入 43,951 例 T2 - T4 期 MIBC 患者,将 SEER 数据库患者随机分为训练集和内部测试集(7:3),另选河南科技大学第一附属医院的患者作为外部验证集。在构建预后模型时,对有远处转移的患者也进行了类似分组12。
- 特征选择:通过计算基线临床变量的相关性系数,结合临床经验,选取 19 个变量进行逻辑回归分析。经单变量和多变量逻辑回归分析,确定多个与转移相关的显著预测因子。再运用 RFE 和稳健排名聚合(RRA)方法,最终选定 9 个临床变量用于后续模型构建34。
- 预测远处转移模型:13 种 ML 算法构建的模型中,CatBoost 模型表现最佳。其在训练集、内部测试集和外部测试集的 AUC 值分别为 0.956 [0.933, 0.969]、0.882 [0.857, 0.919] 和 0.839 [0.723, 0.936],在准确性、敏感性、特异性和精度等指标上也表现出色。SHAP 分析表明,肿瘤大小是预测远处转移最具影响力的因素56。
- 预后模型:经单变量和多变量 Cox 分析,确定多个独立预后因素。在 101 种预后 ML 组合中,“RSF + Enet[alpha = 0.8]” 模型表现最优,其 C 指数在训练集、内部测试集和外部测试集分别为 0.683、0.688 和 0.666。该模型能有效对患者进行风险分层,低风险组患者总生存期明显长于高风险组78。
研究结论和讨论部分指出,本研究构建的 CatBoost 模型和 “RSF + Enet[alpha = 0.8]” 模型,分别在预测 MIBC 患者远处转移和预后方面具有较高的准确性和可靠性。这两个模型为临床医生提供了有力的工具,有助于他们更精准地评估患者的病情,制定个性化的治疗方案。例如,对于高转移风险的患者,可以优先选择更积极的治疗手段,加强术后监测;对于低风险患者,则可以避免过度治疗带来的副作用。然而,该研究也存在一定的局限性,如 SEER 数据库中转移患者比例低于预期,可能影响结果的普遍性;部分患者治疗方式集中,可能影响生存分析;外部验证队列样本量较小,且存在数据缺失等问题。尽管如此,这项研究为 MIBC 的临床管理和治疗策略的优化提供了重要的参考依据,为后续进一步的研究奠定了坚实的基础,有望推动 MIBC 治疗领域的发展,为更多患者带来希望。