基于机器学习的结直肠癌术后下肢深静脉血栓预测模型构建与网络计算器验证
【字体:
大
中
小
】
时间:2025年10月10日
来源:Frontiers in Oncology 3.3
编辑推荐:
本刊推荐:本研究针对结直肠癌(CRC)术后常见但易漏诊的下肢深静脉血栓(LDVT)并发症,创新性地整合机器学习(ML)算法与临床风险因子,开发出基于随机森林(RF)的高精度预测模型(AUC达0.942)。通过SHAP(SHapley Additive exPlanations)可解释性分析揭示D-二聚体(D-dimer)、术前肠梗阻、Caprini评分等核心预测因子,并构建在线计算器实现个体化风险评估,为临床早期干预提供循证工具。
下肢深静脉血栓(Lower limb deep vein thrombosis, LDVT)是结直肠癌(Colorectal Cancer, CRC)术后常见却易被低估的并发症。其早期症状隐匿,延迟发现可能导致血栓后综合征甚至危及生命的事件。全球癌症统计(GLOBOCAN 2022)显示,2022年全球结直肠癌新发病例达192.6万,死亡90.4万,发病率和死亡率分别居恶性肿瘤第三和第二位。预计到2030年,全球结直肠癌负担将增长约60%,严重威胁人类健康。结直肠癌术后静脉血栓栓塞症(Venous Thromboembolism, VTE)的影像和临床诊断发生率可高达40%,其中肺栓塞(Pulmonary Embolism, PE)约占5%。LDVT尤其好发于中远段静脉,常表现为局部疼痛和步态障碍。VTE的后果严重,包括延长住院时间、延误肿瘤治疗、发展血栓后综合征甚至死亡,显著增加医疗支出。此外,研究还表明血栓形成可能促进肿瘤生长和转移,将癌症患者死亡率提高至9.2%,仅次于癌症进展本身。然而,仅50%的患者临床表现为下肢肿胀和局部深压痛等明显症状,多数VTE早期因静脉腔部分阻塞或浅静脉代偿功能而无症状,使得早期检测困难。因此,理想的LDVT预防策略应基于风险分层,准确识别高风险个体并实施针对性预防措施。美国国家综合癌症网络(NCCN)指南推荐使用高质量风险评估工具筛查高风险患者,制定有效的分层预防策略以降低LDVT发生率。
现有结直肠癌患者术后LDVT预测模型主要依赖传统逻辑回归方法,这些模型强调检验因果假设并基于数据拟合优度选择模型,但其严格的线性假设难以捕捉大型复杂数据集中的非线性关系。此外,这些模型主要依赖静态变量进行评估,缺乏动态预测能力,难以适应患者术后病情变化的复杂性。机器学习(Machine Learning, ML)算法作为人工智能的一个分支,处于计算机科学与统计方法的交叉点,能整合多样数据源并提供精准预测。近年来,机器学习在医学领域广泛应用,如产后压力性尿失禁、老年人残疾和儿童肥胖等风险预测,以及在药物开发和个性化医疗中发挥重要作用。随着电子健康记录中患者信息的日益丰富,包括检查和诊断数据,以及机器学习技术的快速发展,为开发高性能预测模型提供了新机遇。
本研究为回顾性队列研究,收集了2021年1月至2022年12月期间接受根治性结直肠癌手术的1000例患者数据用于模型开发,以及2024年3月至8月收集的200例患者数据用于外部验证。纳入标准包括:根据《中国结直肠癌诊疗指南(2020年版)》经影像和病理确诊为I–III期结直肠癌;接受根治性结直肠癌手术;术前无下肢深静脉血栓证据;术后两周内进行双侧下肢彩色多普勒超声筛查以检测症状性和无症状性深静脉血栓。排除标准包括:存在严重慢性疾病或主要器官衰竭;提前出院患者;关键数据缺失≥20%。本研究遵循《赫尔辛基宣言》,并获得医院伦理委员会批准(批准号:KY2023420)。
基于临床专业知识和既往研究证据,变量包括人口学特征(年龄、性别、吸烟和饮酒)、体格测量(体重指数BMI)、病史(高血压和糖尿病)、手术因素(术中出血量和麻醉时间)以及首次术后实验室检测结果(D-二聚体、白细胞计数、中性粒细胞计数等相关生物标志物)。
根据世界卫生组织(WHO)和疾病控制与预防中心(CDC)提供的标准术语定义,下肢深静脉血栓(LDVT)指下肢深静脉系统(如腘静脉、股静脉或髂静脉)内异常形成血栓,导致血管腔部分或完全阻塞。本研究将LDVT定义为结直肠癌术后两周内发生的下肢深静脉血栓,包括症状性和无症状性病例,均经影像学检查确认。
为提高建模效率和数据质量,在模型开发前进行了数据预处理。二分类变量编码为0和1,无序分类变量进行独热编码,有序变量从0开始标注。数值变量归一化至[0,1]范围以最小化尺度差异影响。缺失较少的变量使用多种方法(如R 4.4.1中的Amelia、mice或mi包)插补,而缺失≥20%的变量被排除。剩余缺失值通过多重插补(Multiple Imputation, MI)处理。异常值通过箱线图识别,并根据数据分布用均值或中位数替换。
在特征选择中,首先在训练集上进行单变量分析,以识别与结直肠癌术后LDVT可能相关的变量,从而消除明显无关的特征。随后,通过R软件(版本4.4.1)中的最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator, LASSO)回归进一步筛选这些变量。通过引入L1正则化,LASSO有效处理变量间的多重共线性,最佳正则化参数通过10折交叉验证确定,选择最小误差一个标准误内的lambda值(lambda.1se)。最后,根据不同机器学习模型中特征重要性排名,选择前10个变量作为最终输入特征,以平衡模型复杂度和预测性能,降低过拟合风险,增强模型的泛化能力和临床实用性。
建模队列随机分为训练集(80%)和内部测试集(20%),而2024年3月至8月收集的独立队列作为外部验证集。测试集和外部验证集仅用于模型性能评估,不参与任何模型训练、特征选择或超参数优化,以避免数据泄漏并确保独立稳健的模型评估。所有模型开发步骤均使用训练集进行。超参数通过网格搜索结合10折交叉验证优化,以增强泛化能力并最小化过拟合风险。具体而言,训练集被分成10个子集;每次迭代中,9个子集用于训练,1个子集用于验证,重复此过程10次。然后使用平均验证指标评估模型性能。网格搜索在预定义范围内系统探索不同超参数组合,选择实现最佳验证结果的配置。共构建了八种机器学习预测模型:逻辑回归(Logistic Regression, LR)、随机森林(Random Forest, RF)、支持向量机(Support Vector Machine, SVM)、决策树(Decision Tree, DT)、XGBoost、LightGBM、多层感知器(Multilayer Perceptron, MLP)和K近邻(K-Nearest Neighbors, KNN)。
模型训练后,在内部测试集和外部验证集上评估预测性能。评估指标包括受试者工作特征曲线下面积(Area Under the ROC Curve, AUC)、准确度、灵敏度(召回率)、特异度、阳性预测值(Positive Predictive Value, PPV)、阴性预测值(Negative Predictive Value, NPV)、F1分数、约登指数(Youden’s index, J_index)、Brier分数和平衡准确度。通过多维比较全面评估各模型的优缺点。
解释机器学习模型,尤其是复杂的“黑盒”模型,具有挑战性。基于博弈论的SHapley Additive exPlanations(SHAP)方法通过排名输入特征的重要性并量化其对模型预测的贡献来解决这一挑战。SHAP可以计算每个特征的正负贡献,提供局部解释(针对单个样本)和全局解释(针对整体特征重要性),从而增强模型透明度和临床可解释性。本研究使用R中的shap包进行可解释性分析。
为支持临床应用,最终预测模型部署于基于Shiny的网络平台。该在线应用允许临床医生输入相关患者变量,获取个体化的LDVT发生概率,辅助术后风险评估和决策。
使用R版本4.4.1进行描述性统计和组间比较。分类数据以频数和百分比(%)表示,采用卡方检验比较。正态分布的连续数据以均值±标准差(Mean ± SD)表示,采用独立样本t检验或方差分析(ANOVA)比较。非正态分布数据以中位数和四分位距[Median (IQR)]表示,采用Mann-Whitney U检验分析。多分类变量采用ANOVA比较。P < 0.05被认为具有统计学显著性,所有检验均为双尾。
本研究共纳入1200例接受结直肠癌手术的患者。根据术后是否发生下肢深静脉血栓(LDVT),将患者分为非LDVT组(831例,平均年龄61.96岁)和LDVT组(369例,平均年龄68.48岁)。LDVT总发生率为30.75%。变量缺失率从0.00%到5.25%不等,肿瘤分期的缺失率最高(5.25%)。建模组(n=1000)和外部验证组(n=200)的LDVT发生率分别为31.5%和27%。训练集(n=800)的单变量分析显示,40个变量与LDVT发生显著相关(P < 0.05),包括年龄、术前肠梗阻、手术方式、Caprini评分、血型和麻醉时间等。相反,23个变量如病理类型、体重指数(BMI)、总蛋白、脂蛋白和红细胞计数等无显著关联(P > 0.05)。
本研究对建模组中经单变量分析初步筛选的40个变量,使用R中的LASSO回归进一步选择,通过cv.glmnet函数应用10折交叉验证确定最佳惩罚参数λ。保留在λ1se下具有非零系数的变量,最终得到17个预测因子。
基于LASSO回归方法选择的17个变量,比较了训练集(n=800)、测试集(n=200)和外部验证集(n=200)的基线特征。结果显示,三组间存在一定的基线差异,主要介于外部验证集与建模数据集(训练集和测试集)之间。这是由于数据收集的时间段和人群差异所致。随后的模型评估在严格分离的测试集和外部验证集上进行,以确保结果的稳健性和泛化能力。
在本研究中,我们首先对训练集进行单变量分析,从总共63个自变量中识别出40个潜在影响变量。为进一步细化和确定建模的核心变量,对这些40个变量应用LASSO回归分析,基于训练集选择在1-SE准则下的最优λ,最终确定了17个关键变量。接下来,使用八种不同算法(包括逻辑回归、随机森林、支持向量机、决策树、XGBoost、LightGBM、多层感知器和K近邻)评估这些17个变量的特征重要性。基于各模型的特点,我们对变量按重要性进行排序。我们还测试了包含更多变量(如前8、9、11和13个变量)的模型,发现虽然训练集的AUC略有增加,但验证集的稳定性未显著改善。在某些情况下,Brier分数甚至略有增加,表明包含额外变量可能引入冗余信息并降低泛化能力。因此,我们最终选择每个模型中排名前10的变量进行模型构建。
在训练集上,随机森林(RF)模型表现出最佳整体性能,AUC为0.942(95% CI: 0.926–0.958),准确度为0.894,F1分数为0.924。它实现了高灵敏度(0.945)和平衡准确度(0.864),且Brier分数低(0.089)。LightGBM和XGBoost也表现良好(AUC分别为0.902和0.891),而SVM和逻辑回归显示稳健但稍弱的结果(AUC分别为0.887和0.885)。决策树、KNN和MLP的整体性能较低。总体而言,RF在训练数据上是最有效的模型。
在内部验证中,随机森林(RF)模型表现优异,AUC为0.862,灵敏度为0.905,准确度为0.820,F1分数为0.873。XGBoost显示出可比的AUC为0.863,但总体召回率略低于RF。LightGBM、支持向量机(SVM)和逻辑回归也表现良好但未超越RF。决策树、K近邻(KNN)和多层感知器(MLP)模型的AUC值较低,整体指标普遍较弱。RF在内部验证数据上是最有效的模型。
在外部验证中,随机森林(RF)表现最佳,AUC为0.897,准确度为0.805,平衡的灵敏度(0.815)和特异度(0.778),且误差低(Brier分数0.115)。XGBoost和SVM也显示出良好结果但稍欠平衡。LightGBM、逻辑回归和MLP表现中等。决策树和KNN表现较差。总体而言,RF是顶级模型。
本研究使用决策曲线分析比较了八种机器学习模型对术后DVT的预测。RF模型在不同风险阈值下显示出有利的净收益,尤其在0.2–0.5范围内,净收益保持相对稳定且明显优于其他策略。XGBoost和LightGBM在较低风险水平表现良好。逻辑回归稳健但准确性较低。SVM和MLP用途有限,尤其在高风险时。KNN和决策树表现最差。推荐RF作为最佳模型。
特征重要性图突出了D-二聚体作为RF模型中最有影响的预测因子,与其在血栓形成中的既定作用一致。其他关键特征,包括术前肠梗阻、Caprini评分和年龄,也显示出相当的临床参考重要性。SHAP摘要图进一步显示,升高的D-二聚体以及静脉曲张、术中出血、感染、糖尿病和肠梗阻显著增加LDVT风险。个体解释图展示了这些特征如何贡献于特定患者的风险,高D-二聚体、糖尿病和感染增加风险,而年轻年龄、无静脉曲张和较低失血量具有保护作用。在前50名患者中,SHAP值说明了年龄、心律失常、术后出血和Caprini评分对预测的影响,正SHAP值表示较高风险,负值表明较低风险。总体而言,这些结果强调了SHAP如何增强个体化风险评估并支持术后LDVT的临床决策。
基于随机森林(RF)算法,我们开发了一个用于结直肠癌患者术后下肢深静脉血栓(LDVT)的在线风险预测工具(https://crc-ldvt.shinyapps.io/RF-model/)以识别高风险个体。医护人员可使用此工具预测LDVT风险,工作流程如图9所示。通过输入关键临床变量,如年龄、Caprini评分、D-二聚体水平和出血时间,用户可快速获取个体化风险概率。界面还可视化显示每个变量对模型预测的贡献,使用平均减少准确度和平均减少基尼指数反映各预测因子的相对重要性。底部表格呈现多个观察病例的详细数据,包括输入变量和相应预测结果,便于比较和分析。此工具不仅提供精确的个体化风险评估以支持临床决策,还清晰说明了变量重要性。当预测LDVT风险低时,患者可能接受标准术后管理;当预测风险高时,医护人员可提供增加关注并实施针对高风险患者的综合干预措施。这些干预包括机械预防(如早期活动、压力袜、间歇充气加压)、药物干预(如低分子量肝素或直接口服抗凝药)、营养支持和患者教育。此外,通过动态监测患者状态并在抗凝治疗中平衡血栓预防与出血风险,该工具有助于降低血栓及相关并发症的发生率,促进术后恢复,提高患者生活质量。
下肢深静脉血栓(LDVT)常在结直肠癌患者术后早期隐匿发展。因此,术后两周内及时风险分层和针对性预防对减少并发症和改善康复至关重要。在本研究中,我们通过单变量分析初步确定了40个候选变量,并使用LASSO回归进一步优化,最终选择了17个核心预测因子。基于特征重要性排名,使用各算法前10个特征开发了八种机器学习(ML)模型。其中,随机森林(RF)模型表现出最佳预测性能。特征重要性分析一致强调D-二聚体、术前肠梗阻、年龄、Caprini评分、术中出血量和静脉曲张作为LDVT最有影响的预测因子。基于SHAP的可解释性进一步揭示了这些临床变量在个体水平如何影响LDVT风险,打破了ML模型的所谓“黑盒”,增强了其在早期术后环境中的临床适用性。
本研究采用机器学习方法开发了结直肠癌术后两周内下肢深静脉血栓(LDVT)的预测模型。在评估的变量中,D-二聚体在所有算法中一致排名为最重要特征,突出了其在血栓风险预测中的稳定和突出作用。这些发现不仅从数据驱动角度强化了D-二聚体的临床价值,还为其在LDVT潜在病理生理学中的核心作用提供了间接证据。
机制上,D-二聚体是纤维蛋白溶解过程中产生的交联纤维蛋白的特异性降解产物。其升高反映了凝血和纤溶途径的同时激活,通常表明血栓形成和分解的持续过程。在术后环境中,手术创伤、组织损伤、炎症、静脉淤滞和高凝状态共同促成这一过程,从而增加循环D-二聚体水平。与Caprini评分等传统评分系统不同,D-二聚体具有时间敏感性的优势,能捕捉个体在特定时间点的血栓风险状态。这种动态性质可能解释其在我们模型中相较于静态变量的优越预测性能。它不仅有助于识别血栓存在,还协助评估进展速率、治疗反应和复发风险。
此外,D-二聚体是一种常规可用、成本效益高的实验室检测,具有出色的临床适用性。在术后管理背景下,关键挑战在于平衡LDVT预防与抗凝引起的过度出血风险。D-二聚体通过实现实时风险分层和治疗调整,在此风险-效益权衡中作为关键工具。动态监测D-二聚体水平 thus 可告知个体化抗凝策略,通过精确血栓预防和及时干预促进最佳结局。
本研究识别术前肠梗阻作为所有机器学习模型中LDVT的高重要性预测因子,表明它可能是一个未被充分认识但临床显著的风险因素。机制上,肠梗阻可能通过增加腹腔内压力、静脉淤滞、脱水和全身炎症 contribute to thrombosis——所有这些都创造高凝状态并损害静脉回流。
作为严重胃肠道并发症,肠梗阻不仅增加手术风险,还通过多种途径促进血栓形成。肠道扩张可压迫髂静脉和股静脉,降低血流速度。同时,呕吐、减少口服摄入和液体转移可能导致血液浓缩和血液粘度增加。炎症反应通过释放细胞因子(如IL-6、TNF-α)进一步加剧 prothrombotic state,这些细胞因子损伤内皮、激活凝血并增强血小板聚集。未来研究需要阐明梗阻严重程度或持续时间是否与血栓风险存在剂量依赖关系。
年龄、术中出血量和Caprini评分在本研究中显示出一致的重要性,并得到充分 established 病理生理机制的支持。年龄增长与血管老化、内皮功能障碍和静脉瓣膜功能不全相关——所有这些都 contribute to 受损静脉回流和增加淤滞。此外,老年人通常具有 higher 血液粘度和 reduced 流动性,进一步 elevate 血栓风险。 excessive 术中出血可能导致低灌注、血流动力学不稳定和内在凝血途径激活,从而 promote 血栓形成。尽管Caprini评分广泛用于围手术期血栓风险分层,但它严重依赖静态临床特征,缺乏术中变量如肠梗阻和出血量,这些在我们的模型中 identified 为强预测因子。整合此类手术特定因素可能增强其在真实世界设置中的预测准确性。
其他变量,包括感染、 prolonged 导尿、心律失常、糖尿病和静脉曲张,在特定模型中显示出中等但生物学合理的预测价值。这些因素在特定亚组中可能 exert 更大影响。例如, prolonged 导管使用与 immobility 和静脉淤滞 linked;感染诱导全身炎症和高凝状态;心律失常改变血流动力学稳定性;糖尿病 contribute to 内皮功能障碍。尽管这些特征可能不位居总体顶级预测因子之列,但它们与主要风险因素结合时可能增强模型性能。未来工作应探索它们在分层分析中的加权贡献或作为亚组特定模型中交互项的效用。
目前,缺乏专门针对结直肠癌术后下肢深静脉血栓(LDVT)的预测工具。传统模型如Caprini评分和CRC-VTE模型(AUC = 0.786)基于常规逻辑回归方法。这些模型依赖预定义变量和线性假设,限制了它们充分捕捉变量间潜在非线性关系和交互的能力,从而降低了其对复杂临床场景的适应性。
相比之下,机器学习(ML)技术 well-suited 用于处理高维数据并识别变量间的复杂非线性关系和交互。在本研究中,我们使用随机森林(RF)算法开发了CRC-LDVT预测模型,并应用SHAP分析解释模型预测。SHAP使我们能够清晰量化每个预测因子的贡献,突出关键特征如D-二聚体、术前肠梗阻和年龄。重要的是,D-二聚体的动态性质使模型能够捕捉关键术后早期血栓风险的实时变化。同时,术前肠梗阻——结直肠癌患者特定因素——添加了疾病特定信息,显著提高模型的精确度。这种组合不仅增强模型的预测准确性,还增加其透明度和临床可解释性,有效克服ML常见的“黑盒”问题,促进其实际应用。
本研究的主要局限性在于数据的单源性,源自中国一家三级医院的患者。这可能限制模型对其他地区或人群的泛化能力。此外,尽管采用时间验证评估模型随时间稳定性,但缺乏地理验证可能影响其在不同设置中的适用性。尽管存在这些局限性,本研究成功识别了结直肠癌术后下肢深静脉血栓(LDVT)的关键风险因素,并开发了CRC-LDVT风险预测模型。这些发现为未来研究和临床应用提供了坚实基础。未来研究应旨在多中心队列中验证此模型,并探索实时集成到临床决策支持系统中。
本研究成功开发了用于预测结直肠癌术后患者下肢深静脉血栓(LDVT)的CRC-LDVT模型。与传统模型相比,该模型实现了AUC 0.942(95% CI: 0.926-0.958)、准确度0.894、F1分数0.924、灵敏度0.945和Brier分数0.089。此外,我们利用SHAP值解释模型,并开发了在线网络计算器(https://crc-ldvt.shinyapps.io/RF-model/)。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号