基于机器学习算法构建非小细胞肺癌骨转移预后模型的开发与验证研究
【字体:
大
中
小
】
时间:2025年10月08日
来源:Journal of Bone Oncology 3.5
编辑推荐:
本研究针对初诊伴骨转移的非小细胞肺癌(NSCLC)患者缺乏有效预后评估工具的临床难题,通过整合多组学临床数据与系统性炎症标志物,应用三种机器学习算法开发出个体化预后列线图模型。该模型基于年龄、血清钙(Ca2+)、单核细胞-白蛋白比率(MAR)和预后营养指数(PNI)四个关键指标,在预测6个月、1年和2年总生存期(OS)方面表现出优异 discriminative ability(AUC最高达86.53%),为临床风险分层和治疗决策提供了可靠工具。
在全球癌症相关死亡中,肺癌长期位居首位,其中非小细胞肺癌(NSCLC)占主导地位。尤其令人担忧的是,约30-40%的NSCLC患者在疾病进程中会发生骨转移,而初诊时即伴有骨转移的患者比例也高达17.2%。这些患者不仅面临疼痛、病理性骨折、脊髓压迫等骨骼相关事件(SREs)的困扰,其中位总生存期(OS)通常仅有5至11.5个月,预后极差且个体差异巨大。尽管转移性NSCLC的整体管理取得了显著进展,但骨转移仍然是导致肺癌患者死亡率升高的重要原因。目前,针对初诊即伴骨转移的NSCLC患者,缺乏经过验证的专用预后评估工具,这极大地限制了个体化治疗策略的制定和临床决策的优化。
在此背景下,研究人员意识到系统性炎症与肿瘤发生发展的密切关系。近年来,中性粒细胞-淋巴细胞比率(NLR)、血小板-淋巴细胞比率(PLR)等炎症标志物已被证明与多种癌症的预后相关。然而,能否利用更全面的临床数据和新兴的机器学习技术,构建一个精准、实用的预后预测模型,成为临床亟待解决的问题。为了回答这个问题,来自福建医科大学省立临床医学院、福建省立医院的研究团队开展了一项回顾性研究,其成果发表在《Journal of Bone Oncology》上。
本研究主要采用了以下关键技术方法:首先,研究团队回顾性纳入了2016年至2023年间在福建省立医院接受过高通量基因测序的1299例肺癌患者,最终筛选出195例初诊时即伴有骨转移的NSCLC患者构成研究队列;其次,利用多种机器学习算法(包括LASSO回归、XGBoost和随机森林)进行变量筛选;然后,基于筛选出的关键预后变量构建Cox比例风险回归模型并可视化呈现为列线图(Nomogram);最后,通过计算一致性指数(C-index)、绘制受试者工作特征曲线(ROC曲线)、校准曲线以及进行决策曲线分析(DCA)等多种方法对模型的预测性能、校准能力和临床实用性进行了全面评估,并采用1000次Bootstrap重采样进行内部验证。
2.1. Study Population
研究人员从1299例接受高通量测序的肺癌患者中,按照严格的纳入和排除标准进行筛选。纳入标准包括:年龄≥18岁、经组织学确诊的NSCLC、初诊时即伴有骨转移、且拥有完整的临床数据。排除标准包括:其他恶性肿瘤病史、组织学类型不确定、以及诊断后随访时间不足一个月。最终,195例符合条件的患者被纳入分析。
3. Clinical data & 4. Systemic inflammatory markers
研究收集了极其详尽的临床数据,包括社会人口学资料、临床特征、治疗前血清指标(ALP、LDH、Ca2+、TC、CEA等)、系统性炎症指数(如NLR、PLR、LMR、AAPR、SII、PIV、dNLR、PAR、MAR、PNI、SIRI等)以及基因突变信息(EGFR、ALK、BRAF、KRAS)。这些炎症指标通过特定的血液细胞计数和生化指标计算得出,例如PNI = 血清 albumin (g/dL) + 5 × 淋巴细胞计数 (109/L),MAR = 单核细胞计数 (109/L) / 白蛋白 (g/L)。
5. Multiple imputation
对于缺失率低于30%的变量,研究使用R软件的mice包采用随机森林方法进行了多重插补,以确保数据的完整性和减少偏倚。
9. Selection of predictive model variables
应用三种机器学习算法筛选预后变量是本研究的核心。LASSO回归筛选出14个非零系数变量,XGBoost和随机森林模型则分别根据重要性评分遴选出前15个预测因子。最终,取三种算法的交集,确定了四个一致且重要的预后变量:预后营养指数(PNI)、单核细胞-白蛋白比率(MAR)、血清钙(Ca2+)水平和年龄。
10. Model construction and validation
将这四个变量纳入多变量Cox回归模型构建预后列线图。该模型表现出强大的预测性能,其预测6个月、1年和2年生存率的C-index分别达到80.3%、73.6%和71.6%,对应的AUC值分别为0.865、0.783和0.779。经过1000次Bootstrap内部验证,模型依然保持稳健,校准曲线也显示预测概率与实际观察结果之间存在良好的一致性。
11. Risk stratification using the nomogram
根据模型计算出的风险评分中位数(0.96),将患者分为高风险组和低风险组。Kaplan-Meier生存分析显示,两组患者的总体生存率存在极其显著的差异(p < 0.0001),死亡病例的风险评分显著高于存活病例,证明了模型有效的风险分层能力。此外,亚组分析表明,该模型在EGFR突变阳性与野生型亚组、以及ALK野生型患者中均具有良好的 discriminative ability。在按治疗方式(化疗、靶向治疗、免疫治疗)分层的亚组中,模型的风险评分能够识别出可能从靶向治疗或免疫治疗中获益的患者,但在化疗亚组中的区分能力有限(p = 0.064)。
12. Discussion & 13. Conclusion
研究的讨论部分深入阐释了四个预测因子的生物学意义和临床相关性。预后营养指数(PNI)和单核细胞-白蛋白比率(MAR)作为系统性炎症和营养状态的标志物,其预测价值与既往研究一致。低PNI和高MAR均提示预后不良,反映了慢性系统性炎症导致的营养和功能衰退,以及免疫监视功能(淋巴细胞减少)和促肿瘤微环境(单核细胞/巨噬细胞增多)的共同作用。年龄被所有机器学习算法识别为重要变量,尽管在Cox回归中p值为0.07(可能源于样本量限制),但其作为独立预后因素的价值已被大量研究证实,反映了老年患者共病多、生理储备下降及突变累积的影响。血清钙(Ca2+)水平升高是骨转移的典型特征,与肿瘤诱导的骨溶解有关,可导致严重并发症如心律失常和急性肾衰竭,是公认的不良预后指标。
本研究构建的临床预后模型基于机器学习算法,整合了PNI、MAR、血清Ca2+和年龄这四个关键变量,在预测初诊伴骨转移的NSCLC患者生存方面具有良好的区分度、校准性和临床适用性。它不仅为患者提供了个体化的生存预测工具,支持了医患沟通和临床决策,更重要的是,它能有效识别出高风险患者,这类患者可能更需要积极的综合治疗和支持治疗,而对于低风险患者,则可能避免过度治疗。尽管该研究存在单中心回顾性设计和样本量相对较小的局限性,但其采用的严谨统计方法和内部验证为结果的可靠性提供了支持。该模型有望成为临床实践中对NSCLC骨转移患者进行风险分层和个体化管理的有力工具,未来需要通过多中心、大样本的前瞻性研究进一步验证和优化。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号