编辑推荐:
结直肠癌肝转移(CRLM)严重影响患者预后,现有检测手段存在局限。研究人员开展基于机器学习(ML)的 CRLM 风险预测模型研究,用常规临床数据构建 CRLM-Lab6 模型,预测性能佳,为早期诊断和治疗提供新途径。
在癌症的世界里,结直肠癌(Colorectal Cancer,CRC)是一位不容小觑的 “狠角色”。它在全球范围内,发病率位列第三,死亡率也高居第二,并且这两个数字还在逐年攀升。对于 CRC 患者来说,一个可怕的 “噩梦” 就是癌细胞转移到肝脏,也就是结直肠癌肝转移(Colorectal Liver Metastasis,CRLM)。大约 30 - 40% 的 CRC 患者在确诊时就已经出现了转移,而肝脏是最常见的转移部位,约 12.8% 的 CRC 患者会在确诊五年内发生 CRLM,这严重影响了治疗效果,导致患者死亡率居高不下。
目前的诊断方法存在不少问题。像 CT、MRI 这些先进的成像技术,面对较小的转移病灶时,诊断准确性大打折扣。而传统的肿瘤标志物,比如癌胚抗原(Carcinoembryonic Antigen,CEA)和糖类抗原 199(Carbohydrate Antigen 199,CA199),在检测 CRLM 时,灵敏度和特异性也不尽如人意。所以,寻找新的方法和标记物来实现 CRLM 的早期诊断,成了医学领域亟待解决的难题。
在这样的背景下,中南大学湘雅医院的研究人员挺身而出,开展了一项极具意义的研究。他们试图通过机器学习(Machine Learning,ML)算法,结合常规的临床数据,构建一个能精准预测 CRLM 发生风险的模型。这项研究成果发表在《Clinical and Experimental Medicine》上,为 CRLM 的诊疗带来了新的希望。
研究人员为了构建预测模型,用到了几个关键技术方法。首先,他们从医院的实验室信息系统(Laboratory Information System,LIS)和电子病历(Electronic Medical Record,EMR)系统收集数据,这些数据来自 865 名 CRC 患者,其中 533 名没有发生肝转移(non - CRLM),332 名发生了肝转移(CRLM) 。然后,运用最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)回归进行变量筛选,挑选出对模型构建有价值的特征。最后,采用了五种不同的 ML 算法(逻辑回归、线性支持向量分类、随机森林、决策树、支持向量机)来构建模型,并通过多种评估指标,如受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC)、精确召回曲线、决策曲线分析和校准曲线,选出最优模型。
下面我们来详细看看研究结果。
- 基线数据:研究人员对纳入研究的患者临床特征进行了分析,发现 CRLM 患者和 non - CRLM 患者在年龄、性别、部分血液指标等方面没有显著差异,但 CRLM 患者在肝功能指标(如总胆红素(Total Bilirubin,TBIL)、直接胆红素(Direct Bilirubin,DBIL)、总胆汁酸(Total Bile Acids,TBA)、丙氨酸氨基转移酶(Alanine Aminotransferase,ALT)、天冬氨酸氨基转移酶(Aspartate Aminotransferase,AST))以及肿瘤标志物(CEA、CA199)等方面存在明显异常。同时,在平均红细胞体积(Mean Corpuscular Volume,MCV)、甘油三酯(Triglycerides,TG)、白蛋白球蛋白比(Albumin - to - Globulin Ratio,AGR)、乳酸脱氢酶(Lactate Dehydrogenase,LDH)、低密度脂蛋白胆固醇(Low - Density Lipoprotein Cholesterol,LDL - C)、T 分期和淋巴结转移等方面也有显著差异。这些差异为后续的研究提供了重要线索。
- 特征选择:利用 LASSO 回归进行变量筛选,通过十折交叉验证,确定了九个非零系数的特征,分别是 LDH、CA199、ALT、CEA、TBIL、AGR、TG、MCV 和淋巴结转移。这些特征在后续的模型构建中发挥了关键作用。
- 模型构建与评估:研究人员用五种 ML 算法构建模型并比较性能,结果发现随机森林模型表现最为出色。在训练集中,其受试者工作特征曲线下面积(Area Under the Curve,AUC)达到了 1.00 ;在内部验证集中,AUC 为 0.93,灵敏度为 0.82,特异性为 0.90,阳性预测值(Positive Predictive Value,PPV)为 0.83,阴性预测值(Negative Predictive Value,NPV)为 0.88。进一步分析随机森林模型中各变量的重要性,发现 LDH、CA199、ALT、CEA、TBIL、AGR、TG、MCV 和淋巴结转移的重要性依次降低。为了简化模型并保持其预测能力,研究人员选取了前六个最重要的变量(LDH、CA199、ALT、CEA、TBIL 和 AGR),构建了优化后的模型 CRLM - Lab6。在内部验证集中,CRLM - Lab6 模型表现卓越,AUC 达到 0.94,灵敏度为 0.88,特异性为 0.93。精确召回曲线显示该模型性能令人满意,决策曲线分析表明其具有显著的临床实用性,校准曲线也证明了预测概率与实际结果吻合度高。
- 模型验证:研究人员在包含 252 名受试者(160 名 non - CRLM 患者和 92 名 CRLM 患者)的验证队列中进一步评估 CRLM - Lab6 模型的性能。结果显示,该模型能够有效区分 CRLM 患者和 non - CRLM 患者,AUC 达到 0.96,灵敏度为 0.95,特异性为 0.93。这充分证明了 CRLM - Lab6 模型在不同人群中的可靠性。
- 网页计算器:基于 CRLM - Lab6 模型,研究人员开发了一个在线计算器,医生只需输入相关变量,就能预测患者发生 CRLM 的风险。这一工具为临床医生提供了极大的便利,尤其是在医疗资源有限的地区,有助于早期识别 CRLM 患者。
在研究结论和讨论部分,研究人员构建的 CRLM - Lab6 模型具有很高的预测准确性和临床实用性。该模型结合了 LDH、CA199、ALT、CEA、TBIL 和 AGR 这六个常见的临床指标,为临床医生早期诊断 CRLM 提供了有力的帮助,有助于制定个性化的治疗策略。而且,与现有文献中的其他模型相比,该模型使用的是常规的血液检测数据,成本效益更高。不过,这项研究也存在一些局限性。比如,研究采用的是横断面设计,无法确定常规实验室检测数据与肿瘤转移之间的时间关系;作为单中心回顾性研究,可能存在病例选择偏倚;由于技术和资源限制,模型未能与其他临床实践(如影像学数据)相结合进行进一步优化。但这些不足也为后续研究指明了方向。总的来说,这项研究为 CRLM 的早期诊断和治疗开辟了新的道路,具有重要的临床意义,有望在未来改善 CRC 患者的预后,让更多患者受益。