编辑推荐:
为解决肺癌患者生存预测难题及护士应用机器学习技术障碍,广州医科大学附属第一医院研究人员利用大语言模型 - 高级数据分析(ADA)构建机器学习模型。结果显示随机森林模型预测精度最高,术前多因素影响预后。该研究助力精准医疗,提升护理决策能力。
肺癌,这个隐匿在暗处的健康杀手,正以惊人的速度在全球范围内蔓延。据世界卫生组织国际癌症研究机构数据,2022 年全球新增癌症病例达 2000 万,肺癌以 250 万的新增病例数,占比 12.4%,成为当之无愧的 “癌王”。在中国,情况更为严峻,同年 482 万新增癌症患者中,肺癌患者高达 106 万,占比 21.9% 。随着人口老龄化加剧,60 岁以上肺癌患者数量预计到 2050 年将翻倍。尽管早期肺癌患者在先进诊断技术和新治疗方法的帮助下,5 年生存率可达 67%,但对于大部分患者而言,准确预测生存结局,从而制定个性化的治疗方案,依旧困难重重。
传统的预测方法,如逻辑回归,在面对复杂的临床数据时,往往力不从心。机器学习模型虽展现出强大的预测能力,可分析临床特征(如疾病分期、治疗类型)和人口统计学因素(如年龄、性别)之间的非线性关系,为精准预测带来希望,但多数研究依赖特定数据库,且部分临床特征(如合并症、肺功能、某些血清标志物)在研究中涉及较少,导致预测存在偏差。更棘手的是,护士作为临床一线人员,由于缺乏数据科学、算法等专业知识,在实际应用机器学习技术时困难重重,难以将其有效融入临床工作。
为了攻克这些难题,广州医科大学附属第一医院的研究人员挺身而出,开展了一项意义非凡的研究。他们聚焦于大语言模型 - 高级数据分析(ADA)在肺癌患者生存结局预测中的应用,旨在评估其开发和实施机器学习模型的可行性,并探索其对护理实践的影响。这项研究成果发表在《Asia - Pacific Journal of Oncology Nursing》,为肺癌治疗和护理领域带来了新的曙光。
在研究过程中,研究人员采用了多种关键技术方法。首先,他们选取了 2021 年 1 月至 12 月在广州医科大学附属第一医院确诊为肺癌的患者作为样本队列。然后,通过医院医疗记录系统收集患者的人口统计学、临床信息及合并症信息,并由研究护士收集患者的生存结局数据。接着,利用大语言模型 ADA 辅助构建并评估了随机森林(Random Forest)、支持向量机(Support Vector Machines)和 CatBoost 三种机器学习模型。为确保模型质量,研究人员对数据进行了预处理,包括缺失值处理和异常值识别。最后,运用多种评估指标,如准确率(ACC)、曲线下面积(AUC)等,来评价模型性能,并借助 SHapley Additive exPlanations(SHAP)分析特征对模型预测的贡献 。
研究结果令人眼前一亮。在纳入的 737 例肺癌患者中,12 个月随访期内 197 例患者死亡,生存率为 73.3%,患者平均诊断年龄为 59.32 岁,男性患者居多。三种机器学习模型均展现出良好的预测性能,其中随机森林模型表现最为突出,准确率达到 0.71。校准图显示,三种模型都具有较高的校准可靠性。通过 SHAP 分析,研究人员确定了影响肺癌生存结局的 10 个关键特征,包括术前白细胞(2.2%)、术前一秒用力呼气量(FEV1,2.1%)、术前动脉血氧饱和度(SaO2,1.9%)、术前氧分压(PaO2,1.7%)、术前白蛋白(1.6%)、术前准备时间(1.5%)、入院年龄(1.5%)、术前二氧化碳分压(PCO2,1.48%)、术前住院天数(1.5%)和术后胸腔引流总天数(1.4%) 。
研究结论与讨论部分意义重大。机器学习模型,尤其是基于大语言模型 ADA 开发的随机森林模型,在肺癌生存结局预测方面表现卓越。这一成果支持了预测分析在个性化癌症护理中的重要作用,为优化医疗资源分配和治疗方案提供了有力依据。关键特征分析表明,术前临床指标和营养状况对患者预后影响显著,提示医护人员应重视术前营养支持和功能管理。虽然机器学习模型优势明显,但也存在局限性,如数据来源单一影响外部有效性,缺乏多中心验证限制临床应用,模型解释性有待加强,且缺乏大语言模型 ADA 的应用指南。尽管如此,这项研究依旧为肺癌治疗和护理指明了方向。随着技术的不断完善和研究的深入,机器学习工具将在临床工作中发挥更大的作用,推动精准医疗的发展,为肺癌患者带来更多生的希望。