编辑推荐:
本研究针对T1期结直肠癌术后复发问题,利用生存机器学习算法构建预测模型,揭示关键预后因素,为临床决策提供重要参考,助力精准医疗
T1期结直肠癌是临床上常见的癌症类型之一,术后复发风险评估一直是治疗决策中的关键难题。为了更精准地预测术后复发风险,新疆医科大学的研究团队开展了一项基于生存机器学习算法的研究,旨在构建一个高效的术后复发预测模型。该研究通过分析大量临床数据,筛选出关键预后因素,并利用多种机器学习模型进行预测效能评估,最终发现随机生存森林(Random Survival Forest, RSF)模型表现优异,其C-index达到0.848,Integrated Brier Score为0.098,显示出良好的预测性能。研究结果不仅为T1期结直肠癌患者的个体化预后评估提供了有力工具,也为精准医疗的发展提供了新的思路。论文发表在国际知名期刊《BMC Cancer》上,为相关领域的研究和临床实践带来了重要启示。
研究背景与意义
结直肠癌是全球范围内发病率较高的恶性肿瘤之一,其中T1期结直肠癌患者的治疗选择一直是临床实践中的难点。随着内镜技术的不断进步,内镜下切除和手术切除成为T1期结直肠癌的主要治疗手段。然而,术后复发风险的准确评估对于制定后续治疗方案至关重要。传统的预后评估方法往往依赖于病理特征和临床经验,但其预测精度有限。近年来,机器学习技术在医学领域的应用逐渐增多,为精准医疗带来了新的机遇。新疆医科大学的研究团队敏锐地捕捉到这一趋势,利用生存机器学习算法构建了一个高效的术后复发预测模型,旨在为T1期结直肠癌患者的个体化预后评估提供更精准的工具。
研究方法
研究人员从新疆医科大学附属肿瘤医院和第一附属医院收集了2017年10月至2023年3月期间的580例T1期结直肠癌患者的临床数据。这些数据包括患者的个人信息、治疗方式以及病理相关信息。研究团队首先利用Boruta算法进行特征筛选,识别出对模型有显著贡献的预测因子。随后,将患者数据分为训练集和测试集(比例为7:3),并构建了五种生存机器学习模型:随机生存森林(RSF)、梯度提升(Gradient Boosting, GB)、生存树(Survival Tree, ST)、Cox比例风险模型(CoxPH)和Coxnet。为了评估模型性能,研究人员采用了时间依赖的ROC曲线、C-index和Integrated Brier Score作为评价指标,并利用SHAP算法对模型进行可解释性分析。
研究结果
基线特征分析
研究纳入的580例患者中,151例接受内镜下切除(ER),283例接受手术切除(SURG),146例接受内镜下切除联合手术切除(ER+SURG)。大部分患者无结直肠癌家族史(98.4%),59.1%的患者肿瘤为中度分化,仅有2.0%的患者为低分化。病变部位主要集中在直肠(42.6%)和结肠(57.4%)。大多数患者的肿瘤标志物(CEA和CA19-9)均为阴性(93.3%和95.3%)。高危淋巴结转移患者占比不到10%,淋巴血管侵犯和神经周围侵犯的发生率为6.2%,深部黏膜下浸润的发生率为6.7%。研究发现,高危组患者的复发预后显著差于低危组,而不同治疗方式对复发预后的影响并不显著。
特征筛选
基于Boruta算法的特征筛选结果显示,黏膜下浸润深度、肿瘤芽生分级、淋巴血管侵犯、神经周围侵犯、错配修复蛋白和分化程度被确认为关键特征,而肿瘤大小为待定特征。这些特征在模型中表现出显著的预测价值。
模型性能评估
在五种模型中,随机生存森林(RSF)模型表现最为出色,其在测试集中的C-index达到0.848,Integrated Brier Score为0.098,时间依赖的AUC值为0.918。这表明RSF模型具有较高的预测准确性和稳定性。SHAP可解释性分析进一步揭示了模型的关键影响因素:黏膜下浸润深度<1000μm、肿瘤芽生分级为BD1、无淋巴血管侵犯和神经周围侵犯、高分化癌细胞以及肿瘤大小<20mm对模型有积极影响,而这些特征的缺失则会增加患者复发的风险。
研究结论与讨论
本研究通过构建基于生存机器学习的预测模型,为T1期结直肠癌术后复发风险的精准评估提供了一个高效、可靠的工具。研究结果表明,关键病理特征与术后复发风险之间存在显著相关性,这些特征结合模型可以为临床决策提供重要参考。此外,研究还强调了在精准医疗背景下,机器学习技术与医学知识相结合的重要性。未来的研究可以进一步探索深度学习等更先进的技术,以提高模型的预测性能和可解释性。总之,本研究不仅为T1期结直肠癌的个体化预后评估提供了新的方法,也为精准医疗的发展提供了有力支持。