基于常规临床与实验室数据的机器学习模型在肺癌病理分型中的创新应用与临床转化研究

《Annals of Surgical Oncology》:Machine Learning for Classification in Lung Cancer Using Routine Clinical and Laboratory Data

【字体: 时间:2025年12月05日 来源:Annals of Surgical Oncology 3.5

编辑推荐:

  本研究针对肺癌病理分型依赖侵入性活检、高风险患者难以实施的临床困境,开发了一种基于常规临床与实验室指标的机器学习分类模型。研究团队通过LASSO与Boruta算法筛选出16个关键特征(如性别、CEA、CYFRA21-1等),构建的RandomForest模型在测试集中微平均AUC达0.969,显著提升非侵入性分型准确性,并开发在线计算器(https://nkuwangkai.shinyapps.io/lung-cancer-v1/)推动临床实用化,为无法活检患者提供精准诊疗新策略。

  
肺癌是全球癌症相关死亡的首要原因,其五年生存率不足20%。准确区分小细胞肺癌(SCLC)与非小细胞肺癌(NSCLC)及其亚型(如腺癌(ADC)和鳞癌(SCC))对制定治疗方案至关重要。然而,传统依赖组织活检的病理分型方法存在明显局限性:对于病灶位置特殊或身体状况不佳的患者,活检可能引发气胸、出血等严重并发症,甚至导致肿瘤种植转移。此外,约3-10%的EGFR(表皮生长因子受体)突变NSCLC患者可能转化为SCLC,加剧病情恶化,而反复活检的可行性低,使得动态监测面临巨大挑战。
为突破这一瓶颈,四川癌症医院的研究团队探索利用机器学习技术,整合常规临床数据和实验室指标,开发非侵入性肺癌分型工具。研究纳入了1122例经病理确诊的肺癌患者,收集其人口统计学信息、血液学参数、凝血功能、电解质及五种关键肿瘤标志物(CEA、CYFRA21-1、SCCA、NSE、ProGRP)数据。通过LASSO回归和Boruta算法筛选出16个核心特征,包括性别、年龄、总胆红素、红细胞参数、中性粒细胞计数、纤维蛋白原、镁离子、APTT(活化部分凝血活酶时间)及上述肿瘤标志物。团队对比了逻辑回归、XGBoost、CatBoost和RandomForest四种模型,发现RandomForest表现最优,在训练集中AUC(受试者工作特征曲线下面积)高达0.999,准确率达0.984。
在独立测试集中,该模型微平均AUC为0.969,宏平均AUC为0.940,对SCLC、SCC和ADC的敏感度分别为0.857、0.995和0.667,特异性均超过0.91。特征重要性分析显示,性别和肿瘤标志物(CEA、CYFRA21-1、SCCA、NSE、ProGRP)是分型的核心驱动因素。为进一步推动临床应用,研究团队开发了基于R Shiny的在线预测工具,医生输入16项参数即可实时获取分型概率。
关键技术方法
研究采用回顾性队列设计,纳入四川省级癌症医院2023年11月至2024年6月收治的肺癌患者,辅以成都医学院附属第一医院2020年2月至2023年8月的补充队列。通过LASSO和Boruta算法进行特征筛选,利用五折交叉验证优化RandomForest等模型的超参数,并以AUC、准确率和F1分数评估性能。缺失数据采用随机森林法多重插补处理。
研究结果
特征筛选与模型构建
LASSO与Boruta算法共同鉴定出16个关键预测特征,涵盖临床指标(如性别、年龄)和实验室参数(如肿瘤标志物、血细胞计数)。RandomForest模型在训练集中展现近乎完美的分类能力(AUC 0.999),显著优于其他对比模型。
模型性能与可解释性
在测试集中,模型对SCLC和SCC的识别灵敏度尤为突出(分别达0.857和0.995),ADC的灵敏度相对较低(0.667),但特异性均保持在较高水平。通过%IncMSE(均方误差增加百分比)和IncNodePurity(节点纯度增加量)指标分析,肿瘤标志物和性别被确认为最具影响力的预测因子。
在线工具的临床转化
团队开发的网络计算器实现了模型的临床部署,用户可通过交互界面输入参数即时获取分型结果,为资源有限地区提供低成本、高效率的决策支持。
结论与讨论
本研究成功构建了一种基于常规临床数据的机器学习模型,能够高精度区分肺癌亚型,尤其适用于无法接受活检的患者群体。模型的核心优势在于利用低成本、易获取的指标(如肿瘤标志物)实现非侵入性分型,克服了传统活检的局限性和组学技术的高成本问题。尽管存在回顾性设计的固有偏差和亚型样本量不均衡(ADC占比70.9%)的局限性,但模型在补充队列中仍保持良好泛化能力(AUC 0.878)。未来需通过多中心前瞻性研究进一步验证其鲁棒性,并探索其在动态监测EGFR-TKI(酪氨酸激酶抑制剂)耐药后SCLC转化中的应用价值。该研究为肺癌精准诊疗提供了切实可行的工具,有望优化临床决策流程,提升患者生存质量。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号