基于机器学习的多中心研究构建小细胞神经内分泌宫颈癌(SCNECC)预后预测模型及其外部验证

《BMC Cancer》:Development and external validation of a machine learning-based prognostic model for small cell neuroendocrine cervical carcinoma: a multi-center study

【字体: 时间:2025年11月25日 来源:BMC Cancer 3.4

编辑推荐:

  小细胞神经内分泌宫颈癌(SCNECC)是一种罕见且预后极差的恶性肿瘤,其预后影响因素尚不明确。为解决此问题,研究人员开展了一项多中心研究,利用SEER数据库和中国三家医院的临床数据,系统整合10种机器学习算法构建了117种预后模型。结果显示,StepCox[forward]+随机生存森林(RSF)组合模型(SCR模型)预测性能最佳,在开发集、内部验证集和外部验证集的C-index分别为0.84、0.75和0.68,对1年、3年和5年生存率具有良好预测能力。该模型为SCNECC患者的个体化风险分层和临床决策提供了有力工具。

  
在妇科恶性肿瘤的谱系中,宫颈癌是严重威胁女性健康的疾病之一。其中,小细胞神经内分泌宫颈癌(Small Cell Neuroendocrine Cervical Carcinoma, SCNECC)是一种极为罕见但侵袭性极强的亚型。尽管它在所有宫颈癌中仅占0.5%至5%,但其生物学行为却表现出显著差异:肿瘤生长迅速,早期即可发生远处转移,晚期患者的中位生存期甚至不足一年。与更为常见的宫颈鳞癌或腺癌相比,SCNECC的预后极差,给临床诊疗带来了巨大挑战。由于该病罕见,以往的研究往往受限于小样本量,对影响患者预后的关键因素认识不清,也缺乏能够精准预测个体患者生存结局的可靠工具。传统的统计模型难以捕捉这种罕见癌症中复杂的、非线性的预后规律。因此,开发一种能够整合多维度临床信息、经过严格验证的预后预测模型,对于识别高危患者、指导治疗决策、最终改善患者生存具有重要意义。
近期,发表于《BMC Cancer》的一项研究为这一难题提供了新的解决方案。由中国多家顶尖肿瘤中心的研究团队联合开展了一项大规模、多中心研究,首次成功开发并外部验证了一个基于机器学习(Machine Learning, ML)的小细胞神经内分泌宫颈癌预后预测模型。这项研究巧妙地利用了大数据和人工智能算法,旨在为这种棘手疾病提供更精准的风险评估手段。
为开展此项研究,研究人员主要应用了几项关键技术。首先,他们进行了多中心临床数据收集与整合,队列来源包括美国SEER数据库(2004-2021年)的487例患者和中国三家三级甲等医院(福建省肿瘤医院、中山大学孙逸仙纪念医院、山东省肿瘤医院)的300例患者(2005-2023年)。其次,研究采用了基于R语言“Mime”软件包的多种机器学习算法集成框架,系统组合了10种主流生存分析算法(如随机生存森林-RSF、Stepwise Cox-StepCox、Elastic Net-Enet等),共生成117种预测模型进行比较。最后,模型性能通过一致性指数(C-index)、校准曲线、时间依赖性受试者工作特征曲线(Time-dependent ROC curves)和决策曲线分析(Decision Curve Analysis, DCA)进行综合评估,并利用SHapley Additive exPlanations (SHAP)方法对最优模型进行解释,识别关键预测因子。
患者特征
研究最终纳入了787例SCNECC患者,其中SEER数据库患者被随机分为训练集(343例)和内部验证集(144例),中国多中心数据作为外部验证集(300例)。基线特征分析显示,不同队列间在婚姻状况、种族、疾病分期(如SEER队列中FIGO 2018 IV期患者占35.57%,而中国队列仅为14.00%)和治疗方式(如中国队列手术率61.00%,高于SEER队列的31.49%)等方面存在显著差异,这为后续评估模型的泛化能力提供了现实场景。
模型开发
从22个初始候选临床病理特征中,通过单变量Cox回归分析(p < 0.05)筛选出20个与总生存期(Overall Survival, OS)显著相关的变量进入建模流程。研究人员利用“Mime”包系统比较了117种由10种算法组合而成的预测模型。结果表明,由前向选择法的StepCox与随机生存森林(RSF)组合而成的SCR模型(StepCox[forward] + RSF)在所有候选模型中表现出最优的预测性能和泛化能力。该模型结合了线性特征选择(StepCox)的稳健性和非线性集成学习(RSF)处理复杂关系的能力。
模型验证
SCR模型在训练集、内部验证集和外部验证集中均表现出良好的区分度,其C-index值分别为0.840、0.750和0.680。校准曲线显示模型在1年、3年和5年生存率预测上具有合理的准确性。时间依赖性ROC曲线进一步证实了模型在不同时间点的强大预测能力,在开发集中1年、3年和5年生存率的曲线下面积(AUC)分别高达0.902、0.952和0.959。决策曲线分析表明,SCR模型在预测1年、3年和5年生存率方面具有较高的临床净获益。根据模型计算的风险评分,患者被分为高危和低危组,生存分析显示两组患者在全部数据集中均有显著差异(风险比HR在训练集、内部验证集和外部验证集分别为5.62、3.80和2.10,p < 0.001)。
模型解释
通过SHAP分析揭示了各变量对模型预测的贡献度和方向性。化疗、M分期和年龄被确定为最具影响力的预测因子。接受化疗、放疗和手术干预与负向SHAP值相关,表明其保护作用;而较高的M分期、晚期临床分期、较大肿瘤尺寸或较高年龄则与正向SHAP值相关,提示死亡风险增加。这一分析增强了模型的可解释性,与临床认知相符。
研究结论与讨论部分强调,这项研究首次建立并外部验证了一个基于多算法机器学习框架的SCNECC预后预测模型。SCR模型在内部和外部验证中均表现出合理的区分度、校准度和泛化性能。尽管模型在异质性较强的外部队列中预测准确度有所下降(C-index从0.840降至0.680),这主要源于SEER和中国队列在患者特征(如疾病分期分布、治疗模式)上的显著差异,但模型仍能实现显著的风险分层。研究指出了当前模型的局限性,如未包含病理学细节和特定治疗信息,以及回顾性研究固有的潜在偏倚。未来通过整合多模态数据(如影像组学、分子特征)和前瞻性验证,有望进一步提升模型的精准度。总之,该研究为SCNECC的个体化预后评估提供了首个经过多中心外部验证的机器学习工具框架,为改善这种罕见但凶险疾病的临床管理迈出了重要一步。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号