基于多维融合数据与可解释机器学习的机器人辅助根治性前列腺切术阳性切缘预测模型构建与验证研究

【字体: 时间:2025年10月06日 来源:Frontiers in Oncology 3.3

编辑推荐:

  本刊推荐:本研究创新性地整合临床、mpMRI影像组学及活检病理等多维数据,通过严谨的特征筛选(LASSO、Boruta算法)构建可解释机器学习模型(RF模型AUC达0.97)。SHAP分析揭示5个新型空间解剖特征与阳性切缘(PSM)风险呈负相关,为术前精准预测RARP手术难度、优化临床决策提供了重要工具,有力推动前列腺癌个体化治疗进程。

  
引言
前列腺癌(PCa)是全球男性最常见恶性肿瘤之一,在癌症相关死亡中位列第五。2024年癌症统计报告估算美国新增299,010例病例并造成35,250例死亡。机器人辅助根治性前列腺切除术(RARP)已成为局限性前列腺癌的主要手术治疗方式,也是根治性前列腺切除术(RP)的金标准,显著改善了患者总体生存率和肿瘤特异性生存率。截至2013年,美国高达80%的RP手术为RARP术式。
RP术后前列腺标本中的阳性手术切缘(PSM)是生化复发(BCR)的明确预测因子。PSM发生率受多种因素影响,包括术前前列腺特异性抗原(PSA)水平、临床肿瘤分期(cT stage)、Gleason评分/国际泌尿病理学会(ISUP)分级组、原发肿瘤的病理扩展等。PSM患者面临更高的BCR风险、疾病进展、附加治疗需求和心理困扰,严重影响生活质量。鉴于RARP患者的多样性,术前预测手术复杂性和预后因素对于保障安全、优化调度、提升护理质量和降低成本至关重要。
由于前列腺深居盆腔内部,RARP面临手术空间受限的挑战,这与前列腺大小和盆腔解剖结构密切相关。近期研究提出采用盆腔测量指标来表征盆腔解剖特征,并证明基于盆腔-前列腺空间特征的人工智能(AI)模型可预测RP手术难度。然而,AI模型的稳定性依赖于训练集的数量和质量,现有模型缺乏影像组学、临床和活检病理特征的整合,限制了其泛化能力。本研究旨在建立并验证一个综合机器学习(ML)算法,整合多维融合数据(影像组学、前列腺/盆腔测量、临床及活检病理特征)用于RARP术前PSM预测。
材料与方法
研究队列
这项回顾性单中心研究在重庆医科大学附属第一医院泌尿外科进行,合作单位作者协助数据分析和影像特征量化。研究经医院机构审查委员会(IRB)批准。作为回顾性研究,免除了患者知情同意。所有研究方案均遵循《赫尔辛基宣言》。临床数据(人口统计学和实验室变量)、mpMRI数据(解剖特征及相关参数)和活检病理数据在分析前均进行匿名化处理。PSM定义为 ink标记的手术切缘处存在肿瘤细胞,不论解剖位置。
训练集与验证集
纳入2016年1月至2024年12月期间接受RARP的患者。排除标准包括:mpMRI缺失或质量差;活检病理数据不完整;既往接受过PCa治疗(雄激素剥夺疗法、放疗等);非穿刺活检病理诊断(如经尿道前列腺切除术TURP和光激光汽化术,可能引起周围组织水肿);活检后行mpMRI检查;实验室数据缺失;其他已治疗的恶性肿瘤;远处转移;mpMRI在RARP前超过5个月进行;前列腺平滑肌肉瘤;1年内有TURP史。
测试集
纳入2025年1月至2025年7月期间接受RARP的患者。排除标准与训练/验证集类似,包括mpMRI缺失或质量差、活检病理数据不完整、既往PCa治疗、非穿刺活检诊断、其他恶性肿瘤、远处转移、mpMRI超过5个月前进行、前列腺平滑肌肉瘤以及1年内TURP史。患者筛选流程见图1。
临床、mpMRI及活检病理数据收集
临床数据
一位对mpMRI和病理数据盲法的临床医生从电子记录中提取了49个特征,包括人口统计学(年龄、BMI)、生活方式因素(吸烟状况、饮酒)、合并症(高血压、糖尿病)、手术细节、实验室检查(全血细胞计数、生化功能、凝血)以及PCa标志物(总前列腺特异性抗原tPSA、游离前列腺特异性抗原fPSA、fPSA/PSA比值)。
mpMRI数据
影像使用3.0 T MR扫描仪获取,序列包括T2加权(TR=3,500 ms, TE=85 ms, 层厚3 mm)和扩散加权成像(b值=0, 1,000 s/mm2)。由两位放射科医生(Reader A和B,均具有>8年PCa诊断经验)使用ITK-SNAP软件手动测量。他们不知晓临床病理数据,评估了前列腺影像报告和数据系统(PI-RADS)评分、临床肿瘤分期,并测量了盆腔、前列腺和肿瘤特征。MRI特征的观察者内和观察者间相关系数(ICCs)范围0.70–0.99,表明良好的一致性。争议病例由一位资深放射科医生(>15年经验)重新评估。
影像组学特征(10项):PI-RADS评分、精囊侵犯(SVI)、淋巴结侵犯(LNI)、淋巴血管侵犯(LVI)、神经周围侵犯等。
解剖测量(97项,补充表2,补充图1):
  • 轴位平面(26项):右闭孔内肌厚度(TROIM)、左闭孔内肌厚度(TLOIM)、肛提肌外缘距离(DOLAM)等。
  • 矢状位平面(31项):前列腺尿道长度(PUL)、膜性尿道长度(MUL)、膜性尿道角度(MUA)等。
  • 冠状位平面(12项):右肛门括约肌厚度(RST)、左肛门括约肌厚度(LST)、右肛提肌厚度(TRLAM)等。
  • 计算值(28项):肛提肌厚度(TLAM)、前列腺-肌肉指数(PMI)、圆形度比值(RR)等。
活检病理评估
所有患者均由一位泌尿科医生行经直肠超声引导前列腺活检。活检病理由一位资深病理医生(>10年PCa经验)审阅,其对MRI和术后病理不知情。肿瘤分类基于2016年WHO标准,分级通过Gleason评分和癌组等级。记录了8个特征,包括活检方法、阳性活检核心数(PBC)、PBC百分比等。
特征提取与筛选
缺失率<10%的特征被纳入。插补时,连续变量用中位数填充,分类变量用众数填充以确保可比性。
采用四步筛选流程:
  1. 1.
    去除低方差特征(基线分析)。
  2. 2.
    使用单变量逻辑回归进行初步筛选。
  3. 3.
    通过Spearman等级相关分析(r ≥ 0.7)去除冗余特征。
  4. 4.
    通过LASSO和Boruta算法选择最优特征子集,最终特征为两者的交集。
超参数调优
为优化各算法性能,进行了超参数调优。建模过程采用贝叶斯超参数搜索方法,系统评估了大量超参数值以确定能最大化效率和准确性的配置。通过对超参数空间的详细迭代探索,有效微调了模型。这种精细调整确保模型经过精确校准,显著增强了其分析预测能力。
ML模型构建、验证与测试
构建了六种预测PSM的ML模型:逻辑回归(LR)、支持向量机(SVM)、K最近邻(KNN)、决策树(DT)、随机森林(RF)和极限梯度提升(XGBoost)。计算受试者工作特征(ROC)曲线分析、曲线下面积(AUC)、准确度(ACC)、灵敏度(SEN)、特异度(SPE)、阳性预测值(PPV)、阴性预测值(NPV)和F1分数以评估模型性能。为比较所构建ML模型的预测性能和临床效用,进行了DeLong检验、带Brier分数损失的校准曲线分析和决策曲线分析。Brier分数越低表明模型校准越好。
目标模型的交叉验证
为进一步验证模型稳健性,对最优模型进行了五折和十折交叉验证。在N折交叉验证中,数据集被分为N等份;每次迭代中,模型在N-1份上训练,在剩余1份上验证。此过程重复N次,最终性能指标通过平均结果得出,以确保稳健评估。
机器学习模型解释
使用SHAP(Shapley Additive exPlanations)分析解释最优模型。SHAP基于合作博弈论,通过评估特征在所有特征组合中的边际贡献来量化每个特征对模型预测的贡献,确保特征重要性的平衡表示。它在两个尺度上提供可解释性:局部可解释性:通过量化特征贡献阐明个体预测;全局可解释性:综合特征在整个数据集中的相对影响。工作流程见图2。
统计分析
使用SPSS 25.0、R软件(版本4.3.1)和Python(版本3.8.0)进行统计分析。连续变量以中位数和四分位距(IQRs)表示,并使用Mann–Whitney U检验进行比较。分类数据以计数(百分比)表示,并使用卡方检验、Fisher精确检验或Yates连续性校正进行比较。基于最佳截断值(Youden指数)计算准确度、灵敏度、特异度、PPV和NPV,并使用1000次bootstrap估计95%置信区间(CIs)。双尾P值<0.05被认为具有统计学意义。
结果
临床特征
共纳入347名患者(中位年龄:70岁,IQR:65.00-74.00岁),其中238名(68.6%)为阴性手术切缘(NSM),109名(31.4%)为PSM。训练集和验证集在临床、mpMRI或活检病理特征方面均无显著差异(所有P > 0.05;表1)。
特征筛选
基于先前研究和作者兴趣,从164个初始特征出发,通过四步筛选保留了7个关键特征(图3):
  1. 1.
    排除了8个低方差特征(补充表3)。
  2. 2.
    通过单变量逻辑回归分析排除了119个与PSM无关的特征(补充表4)。
  3. 3.
    通过Spearman等级相关分析(r ≥ 0.7)去除了16个冗余特征(补充图2)。
  4. 4.
    LASSO逻辑算法和Boruta算法分别保留了10个和9个特征(补充图3),最终特征取其交集。
    这7个特征(补充图3)包括:
    • 阳性活检核心数(Number of PBC)
    • 临床肿瘤分期(cT stage)
    • 矢状位-后部空间解剖结构指数(S-PSAI)
    • 矢状位-总空间解剖结构指数(S-TSAI)
    • 冠状位-左侧解剖结构间隔(C-LAI)
    • 冠状位-右侧解剖结构间隔(C-RAI)
    • 轴位-耻骨联合下缘-双侧坐骨棘角(A-SP-BIS Angle)
      这7个特征在训练集、验证集和测试集之间均无显著差异(所有P > 0.05;表2)。
ML模型建立
表3总结了通过贝叶斯优化得到的模型参数、调整范围和最优值。在六个模型中,KNN和XGB在训练集上表现出较高的AUC值(1.00,95% CI: 1.00-1.00),提示过拟合。RF模型取得了最佳平衡性能:
  • 训练集:AUC 0.99 (95% CI: 0.97–1.00),准确度0.94
  • 验证集:AUC 0.88 (95% CI: 0.80–0.95),准确度0.83
  • 测试集:AUC 0.97 (95% CI: 0.94–1.00),准确度0.93
    DT、SVM和LR模型在训练集中分别排名第二、第三和第四预测模型。DT、LR和SVM模型在验证集中分别排名第二、第三和第四预测模型。LR、SVM和DT模型在测试集中分别排名第二、第三和第四预测模型。模型性能指标详见表4和图4A–F。
ML模型比较
DeLong检验证实,在训练集中,RF模型的AUC优于LR、SVM和DT(所有P < 0.05),但低于KNN/XGB(过拟合模型)。在验证集和测试集中,RF优于其他五个模型(Z分数为正)。在验证集中,RF与LR/XGB无显著差异(P > 0.05),但优于SVM/KNN/DT(P < 0.05)。在测试集中,RF与LR/SVM/XGB无显著差异(P > 0.05),但优于KNN/DT(P < 0.05)(表5)。
此外,RF具有最低的Brier分数(除过拟合的KNN/XGB模型外)和良好匹配的校准曲线(图5A–C),在决策曲线分析中的大多数阈值概率下具有最高的净收益(图5D–F)。
稳健性检验
RF模型的五折交叉验证显示各折AUC为0.82–0.92,平均AUC为0.87 (95% CI: 0.84–0.90)。十折交叉验证显示各折AUC为0.80–0.99,平均AUC为0.88 (95% CI: 0.83–0.93),表明性能稳定(图6)。
RF模型的SHAP解释
特征重要性排序在训练集和验证集中一致:S-PSAI > C-LAI > S-TSAI > A-SP-BIS Angle > C-RAI > Number of PBC > cT stage(图7A, B)。在测试集中排序为:S-SPAI > S-TSAI > C-LAI > A-SP-BIS Angle > C-RAI > Number of PBC > cT stage(图7A-C)。五个空间特征(S-PSAI, C-LAI, S-TSAI, A-SP-BIS Angle, C-RAI)与PSM风险呈负相关,而Number of PBC和cT stage呈正相关(图7D–F)。SHAP决策图说明了所有贡献特征对最终预测概率的影响(图7G–I)。SHAP依赖图进一步阐明了特征关系(图8)。代表性病例(NSM vs. PSM)图示了RF模型中7个关键特征各自的贡献(图9)。
讨论
据我们所知,这是首个研究整合临床、mpMRI和活检病理数据的ML模型用于RARP术前PSM预测的研究。RF模型在训练集、验证集和测试集均表现出优异性能,其稳健性通过交叉验证得到证实。SHAP分析明确了特征重要性排序,从而提高了模型透明度。这种创新方法将改进术前手术风险分层,优化临床决策过程,并为自动化机器人手术病例筛查建立框架,最终推动RARP治疗策略的精准化和个体化。
先前研究已识别出PSM的预测因素,包括手术经验、体重指数(BMI)、tPSA、包膜外侵犯(ECE)、神经血管束(NVB)侵犯、cT分期、阳性活检核心百分比、阳性活检核心数、Gleason评分(GS)、病理分期(pT分期)、前列腺活检与手术间隔时间等,但这些研究侧重于单一特征类型。多参数MRI(mpMRI)是PCa标准成像工具,提供了关键的解剖学见解,先前研究将前列腺和盆腔尺寸(如前列腺体积PV、盆腔尺寸指数PDI/PV比值、前列腺-肌肉指数PMI、尖部深度AD、耻骨联合角SA、骨盆入口横径和坐骨结节间距离ITD等)与PSM风险相关联。然而,仅关注单一类别特征而忽视其在评估RARP中PSM的整体性质,视角有限。本研究通过整合多个领域的164个特征,并通过严格的多步筛选过程筛选出7个关键预测因子,解决了这一局限性,确保了所选特征的科学性和严谨性。
最优超参数调优对ML性能至关重要。本研究采用了数据高效优化算法,如贝叶斯优化,来自动化此过程,筛选参数调整范围和最优参数。基于评估指标,KNN和XGB的准确度、AUC等指标接近或达到1,表明过拟合。KNN和XGB回归方法容易过拟合和拟合不连续,这仍是该领域的重要挑战。相比之下,RF模型在训练、验证和测试集中分别获得了0.99、0.88和0.97的合适AUC值。RF优于LR、SVM和DT,表明其泛化能力更强。其在各数据集上的高准确度、特异度和灵敏度证实了其预测可靠性。总体而言,这些结果确认RF模型是最优分类器,与先前研究一致。
值得注意的是,DeLong检验证实,在训练集中,RF模型的AUC优于LR、SVM和DT,但低于KNN和XGB。鉴于KNN和XGB是过拟合模型,这些比较缺乏实际意义。RF模型的AUC在验证集中与LR和XGB相当,但优于SVM、KNN和DT。在测试集中,RF模型的AUC与LR、SVM和XGB相当,但优于KNN和DT。DeLong检验证实了RF模型的总体优势,但这种优势对高方差模型具有实际价值。对于验证集和测试集中的LR和XGB模型,RF模型并未表现出显著优势,这可能归因于当前验证集和测试集样本量不足。此外,RF模型表现出最佳的校准(较低的Brier分数,良好对齐的校准曲线)和在大多数阈值概率下的最高净收益(决策曲线分析)。总之,RF模型在三组数据中在灵敏度、特异度、准确度、ROC和F1分数方面均表现出色,肯定了其预测可靠性和临床决策支持价值。五折和十折交叉验证证实了RF模型的稳定性能。这些结果表明,RF模型可促进手术难度识别,指导个性化手术规划,优化资源配置,从而降低术后生化复发风险。
ML模型常被诟病为“黑箱”,这限制了其临床接受度,尤其在医疗保健等关键应用中,临床决策工具的透明度和可靠性至关重要。为应对此挑战,研究人员专注于开发提高这些模型可解释性的方法,例如SHapley Additive exPlanations(SHAP)分析,它为数据集中的个体特征分配贡献值,以指示每个特征对预测结果的影响程度。这种整体方法使研究人员能够识别哪些特征对结果影响最显著,以及其影响是正面还是负面,从而促进基于ML的诊断或预测工具在临床环境中的接受。据我们所知,这是首个研究基于多维融合数据并使用SHAP方法进行PSM预测的ML模型的研究。使用SHAP条形图、蜂群图和决策图成功可视化了7个所选特征的贡献关系。因此,我们的研究发现5个新发现的空间特征与PSM负相关,其中S-PSAI影响力最大。在术前PSM预测中,RF模型赋予此特征最高重要性。具体而言,较低的S-PSAI、S-TSAI、C-LAI和C-RAI值表明手术空间有限,增加了手术难度和肿瘤残留风险,提示外科医生调整剥离技术或指派经验丰富的外科医生。狭窄的A-SP-BIS角可为手术规划提供信息。然而,阳性活检核心数和cT分期与PSM正相关,与先前研究一致。外科医生可利用特征贡献优先关注术中高风险区域。SHAP可视化增强了透明度,从而提高了对模型衍生决策的信任以及患者的理解和依从性。
本研究有几个关键优势:数据质量稳健;特征整合全面;特征筛选科学严谨;模型多样性与验证充分;模型可解释性高。
同时应承认几个局限性:回顾性偏倚;选择偏倚;普适性有限;自动化程度不足;手术范围受限;数据维度有待扩展(如基因组数据)。
结论
基于多维融合数据的ML模型提高了RARP中PSM的预测准确性。具有优异性能和SHAP-based可解释性的RF模型,增强了术前风险分层,优化了决策制定,支持个性化治疗,从而改善了患者治疗依从性并可能改善患者结局。在临床实施前需要进行前瞻性和外部验证。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号