编辑推荐:
鼻咽癌治疗存在个体响应异质性,为实现精准医疗,研究人员基于影像剂量参数与临床特征,利用随机森林(RSF)、XGBoost 决策树(GBDT)和决策树(DT)算法构建短期疗效预测模型。发现 RSF 模型预测能力最佳,为 LANPC 个体化治疗提供新工具。
在肿瘤治疗领域,鼻咽癌(NPC)尤其是局部晚期鼻咽癌(LANPC)的治疗一直面临挑战。尽管调强放疗(IMRT)时代 LANPC 的 5 年总生存率(OS)已达 80%,但患者对治疗的响应存在显著异质性。部分患者接受诱导化疗联合同步放化疗(IC+CCRT)后仍会出现复发或远处转移,而目前主要依赖血清 EB 病毒 DNA(EBV-DNA)水平预测疗效,缺乏整合临床特征与影像剂量参数的预测工具。因此,如何提前精准预测患者的短期疗效,实现个体化治疗,成为亟待解决的问题。
为填补这一空白,广西医科大学第二附属医院等机构的研究人员开展了相关研究。他们基于影像剂量参数和临床特征,利用机器学习算法构建 LANPC 短期疗效预测模型,旨在为临床提供更有效的疗效评估工具。该研究成果发表在《Scientific Reports》。
研究人员回顾性收集了 194 例 LANPC 患者的临床数据(包括 24 项临床特征和 12 项影像剂量特征),运用三种机器学习算法构建模型:决策树(DT)、XGBoost 决策树(GBDT)和随机森林(RSF)。研究通过 “ROSE” 包平衡训练集与测试集数据,采用 Kaplan-Meier 法分析生存差异,利用校准曲线和受试者工作特征曲线(ROC)评估模型可靠性。
临床特征与影像剂量参数分析
研究纳入的患者中,男性占 72.7%,临床分期以 III 期(40.2%)和 IVa 期(59.8%)为主,多数存在咽旁间隙、椎前肌等部位侵犯。影像剂量参数如原发肿瘤靶区(PGTVnx)的最大剂量(Dmax)、平均剂量(Daverage)、95% 体积最小剂量(D95)等在训练集与测试集间无显著差异,表明数据分布均衡。
机器学习模型构建与评估
- DT 模型:以 PGTVnx_D95 为最关键特征,训练集 AUC 为 0.848,测试集为 0.783,显示中等预测效能。
- GBDT 模型:重要特征包括 PGTVnx_D95、左侧转移淋巴结靶区体积(PGTVnd-L Volume)等,训练集 AUC 为 0.866,测试集为 0.849,性能略优于 DT。
- RSF 模型:表现最佳,训练集 AUC 达 1.000,测试集为 0.944。其核心特征为 PGTVnx_D95、PGTVnx_Daverage、年龄等,且通过袋外误差(OOB)确定最优参数(mtry=3,ntree=500)。决策曲线分析(DCA)显示,RSF 模型在临床决策中的净获益显著高于其他模型。
疗效与生存差异
根据 RSF 模型将患者分为完全缓解(CR)组与非 CR 组,Kaplan-Meier 生存分析显示,两组 3 年 OS 率分别为 98.9% 和 100%,5 年 OS 率为 89.7% 和 98.8%,差异具有统计学意义(P=0.0037)。尽管 CR 组短期疗效显著,但长期生存略逊于非 CR 组,提示肿瘤增殖速率可能影响预后,需进一步机制研究。
讨论与意义
该研究首次整合临床特征与影像剂量参数,利用机器学习构建 LANPC 短期疗效预测模型。结果表明,RSF 模型能准确预测疗效,其核心特征如 D95 与临床共识一致,验证了影像剂量参数的重要性。尽管研究未纳入 EBV-DNA 数据且未评估正常组织剂量,但其通过多算法对比证实了机器学习在肿瘤精准医疗中的潜力。未来需扩大样本量、纳入多中心数据,并结合分子标志物进一步优化模型,为 LANPC 患者的个体化治疗方案选择提供更坚实的依据。
该研究不仅为临床提前识别高风险患者、避免过度治疗提供了新工具,也为机器学习在肿瘤疗效预测领域的应用开辟了新方向,具有重要的临床转化价值。