基于多参数MRI影像组学与深度学习模型术前鉴别子宫浆液性癌与子宫内膜样癌的多中心研究
【字体:
大
中
小
】
时间:2025年10月09日
来源:Frontiers in Oncology 3.3
编辑推荐:
本推荐语归纳总结了该综述的中心思想:本研究创新性地整合多参数MRI影像组学(Radiomics)、深度学习(DL)特征及临床影像学特点,构建并验证了能够术前无创性精准鉴别子宫浆液性癌(USC)与子宫内膜样癌(EEC)的联合模型(AUC达0.957),其卓越的鉴别效能(敏感度0.923,特异度0.833)和决策曲线分析(DCA)证实的临床净获益,为制定个体化手术方案及辅助治疗策略提供了重要影像学决策支持工具,具有重大临床转化价值。
子宫浆液性癌(Uterine Serous Carcinoma, USC)和子宫内膜样子宫内膜癌(Endometrioid Endometrial Carcinoma, EEC)是子宫内膜癌两种截然不同的亚型,具有显著不同的预后和管理策略。USC虽然仅占子宫内膜癌病例的5%至10%,却导致了40%的相关死亡,其患者常表现出淋巴血管间隙浸润、淋巴结受累和微观腹膜播散,即使在肌层浸润有限的早期疾病中也是如此,导致其诊断时III期或IV期疾病的风险比EEC高2.5倍。手术是治疗的关键,但USC需要比EEC更广泛的手术切除范围。因此,术前准确区分USC和EEC对于制定手术计划和辅助治疗具有重要意义。
目前,术前区分主要依赖子宫内膜活检或刮宫术(D&C)等侵入性操作,但这些技术容易因肿瘤异质性而出现采样误差,经常导致术前与术后最终组织学的不一致,近三分之一的初始诊断为低级别子宫内膜样癌的肿瘤在子宫切除标本检查中被升级或重新分类为高级别癌,这种诊断不准确性可能导致次优的手术计划。因此,迫切需要一种能够对整个肿瘤进行全面评估的非侵入性方法来补充活检结果。
磁共振成像(MRI)已广泛用于子宫内膜癌的诊断和鉴别诊断。近期研究强调了与USC相关的独特MRI特征,例如提示腹膜播散的不均匀信号强度和异常腹水的存在,可作为与EEC的区别特征。此外,源自扩散加权成像(DWI)、动态对比增强(DCE)MRI和酰胺质子转移(APT)成像的成像参数提高了诊断准确性,并促进了子宫内膜癌亚型的区分。然而,由于USC的罕见性和随之而来的有限样本量,其术前放射学特征尚未明确,传统MRI判读的诊断性能仍然可变且不理想,曲线下面积(AUC)值在0.62至0.826之间。
影像组学(Radiomics)从传统图像中提取高通量特征,捕获容易被盲法活检遗漏的瘤内异质性。同时,深度学习(Deep Learning, DL)通过自动从数据中学习复杂模式,在图像分析任务中展现了卓越性能。这些技术已越来越多地应用于子宫内膜癌,用于术前预测高级别肿瘤、淋巴结转移、淋巴血管间隙浸润、宫颈间质浸润和深肌层浸润。然而,文献中仍然存在两个关键空白。首先,虽然先前的研究侧重于预测肿瘤分级或广泛区分II型与I型子宫内膜癌,但具有重要治疗意义的USC与EEC之间的具体区分尚未使用辅以临床放射学数据的集成影像组学和深度学习方法进行系统探索。其次,大多数现有模型源自单中心队列,缺乏稳健的外部验证,限制了其普适性。
这项回顾性研究得到了各自机构伦理委员会的批准,由于其回顾性性质,知情同意被放弃。在分析之前,所有患者数据均经过匿名化处理以确保个人信息的机密性和匿名性。
研究从四个医疗中心确定了311名接受妇科手术的患者队列,包括111名USC和200名EEC。参与中心如下:汕头市中心医院(机构I)、中山大学孙逸仙纪念医院(机构II)、中山大学肿瘤防治中心(机构III)和汕头大学医学院肿瘤医院(机构IV)。具体的各机构和组织学亚型的数据收集时间线详见补充表1。纳入标准要求(a)经手术和病理学证实的USC和EEC;(b)在妇科手术前14天内进行了盆腔MRI检查。排除标准包括:(a)最大肿瘤直径小于1 cm;(b)MRI检查不完整;(c)病理报告不完整;(d)存在混合细胞成分;以及(e)有新辅助治疗史。最终,共有210名患者被纳入研究,包括68名USC和142名EEC。来自机构I和II的患者按7:3的比例随机分配到训练队列(100名患者)和内部测试队列(44名患者)。由机构III和IV共纳入66名患者作为外部测试队列。图1展示了患者招募过程的流程图。
MRI使用3.0-T或1.5-T扫描仪与盆腔相控阵表面线圈进行。机构I和II使用Siemens Magnetom Verio(3.0-T)和Siemens Magnetom Area(1.5-T)扫描仪,而机构III和IV使用Siemens Magnetom Avanto(1.5-T)和GE Medical System Discovery HD750(3.0-T)扫描仪。获得的序列包括轴位和矢状位T2加权成像(T2WI)、扩散加权成像(DWI)(b值为800或1000 s/mm2)、以及轴位和矢状位对比增强MRI(CE-MRI)。CE-MRI在以0.2 mmol/kg体重的剂量注射钆螯合物(Gadovist, Bayer)后进行。详细的MRI采集协议总结在补充表2中。
从医疗记录中收集临床数据,包括年龄、体重指数(BMI)、绝经状态、产科史、恶性肿瘤家族史、糖尿病史、国际妇产科联合会(FIGO)分期(2023年)、肿瘤标志物(CA-125、CA-199、CEA、HE4)、以及肌层和宫颈间质浸润、附件受累、宫旁浸润、淋巴结转移和异常腹水存在的详细信息。为了后续建模,肿瘤分级分类如下:(a)低级别,包括FIGO 1级和2级子宫内膜样癌;和(b)高级别,包括FIGO 3级子宫内膜样癌或子宫浆液性癌。此外,根据欧洲肿瘤内科学会指南,FIGO分期分为早期(IA)和晚期(IB或更高)以进行风险分层。在本研究的基线特征描述和分析中,FIGO分期和组织病理学分级是基于术前子宫内膜活检或D&C结果确定的,反映了初始临床决策时可用的诊断信息。
两位经验丰富的放射科医生,LP.L.(阅读者1)具有5年经验和Y.S.(阅读者2)具有8年妇科影像学经验,在无法访问医疗记录或病理数据的情况下独立评估多参数MR图像。他们评估了病变特征,包括位置、边界、生长模式、弥漫性分布、坏死和出血的存在、肿瘤最大直径、肿瘤体积(计算为d1×d2×d3×π/6,其中d1和d2沿子宫长轴和垂直方向在矢状面测量,d3是轴位面中最大的横向直径)。此外,他们还评估了肿瘤和臀大肌在T2WI、DWI和CE-T1WI上的信号强度比(SIR)、CE-T1WI上的强化模式、均匀性、以及T2WI矢状图像上子宫内膜厚度(ET)与子宫最大纵向和前后(AP)尺寸的比率。特征由两位放射科医生独立评估,任何分歧通过共识解决。定性临床放射学特征的观察者间一致性使用Cohen’s kappa(κ)统计量评估,连续变量使用组内相关系数(ICC)评估(补充表3)。
图2提供了研究流程的概述。感兴趣区域(ROI)使用ITK-SNAP软件在T2WI、DWI和延迟期CE-T1WI上沿病变边缘手动勾画,确保最少包含正常组织以获取全面的肿瘤数据。对每个肿瘤进行了体积感兴趣区域(VOI)分割。所有ROI勾画由两位经验丰富的放射科医生(阅读者1和阅读者2)在不知晓患者组织病理学的情况下进行。间隔3个月,随机选择30名患者由阅读者2重复肿瘤ROI勾画。提取特征的观察者间/观察者内变异性通过ICC检验评估。ICC > 0.75表示一致性满意。
影像组学分析使用PyRadiomics版本3.0.1进行,利用来自T2WI、DWI和延迟期CE-T1WI的VOI。在特征提取之前,每个图像序列通过将灰度值以均值中心化并按标准差缩放进行归一化,这有效地最小了由不同扫描仪、扫描参数和协议引起的变异。从各种MRI图像(T2WI、DWI、CE-T1WI)中总共提取了535个影像组学特征,包括70个形状特征、90个一阶直方图特征、以及纹理特征包括120个灰度共生矩阵(GLCM)、80个灰度游程长度矩阵(GLRLM)、80个灰度区域大小矩阵(GLSZM)、25个邻域灰度色调差异矩阵(NGTDM)和70个灰度依赖矩阵(GLDM)。研究设计遵循了影像生物标志物标准化倡议(IBSI)的报告指南。
深度学习特征使用预训练的Resnet50卷积神经网络(CNN)模型提取。在提取DL特征之前,数据经过以下步骤处理:(1)选择标记MRI中最大的ROI掩模;(2)使用最小边界矩形裁剪MRI图像;(3)将肿瘤块调整大小为224×224像素。Resnet50网络最初在ImageNet数据集上进行预训练,随后在训练集上进行迁移学习。Resnet50训练完成后,我们使用模型的倒数第二个平均池化层从每个块中提取了2048个深度学习特征。然后使用主成分分析(PCA)将特征压缩为一组64个特征。最终,从所有序列中总共提取了320个DL特征。使用梯度加权类激活映射(Grad-CAM)来增强模型透明度并通过可视化探索可解释性。
我们对所有特征应用了z-score归一化,并移除了具有恒定值的特征。使用Spearman相关性检验初步筛选ICC大于0.75的影像组学特征。当两个特征之间的Spearman相关系数超过0.9时,我们保留一个特征进行进一步分析。这些特征随后使用最小绝对收缩和选择算子(LASSO)进行筛选。正则化参数(λ)使用最小标准误差准则(1-SE准则)以及基于十倍交叉验证的特征选择进行调优(见补充图2)。特征选择后,在训练集上采用合成少数类过采样技术(SMOTE)算法,但仅使用LASSO选择的特征,以平衡少数类样本用于后续模型训练步骤。
采用支持向量机(SVM)算法构建了七个模型,包括一个利用临床和放射学数据的临床放射学模型、一个使用影像组学特征的影像组学模型、一个利用深度学习特征的DL模型、一个结合临床放射学和影像组学特征的CR模型、一个整合影像组学和深度学习特征的DLR模型、一个结合临床放射学和深度学习特征的CDL模型、以及一个包含所有选定特征的全面综合模型。所有特征整合均通过直接拼接(特征级融合)进行,以最大化信息利用。
模型在训练集中开发,并在内部和外部测试集中进行验证。模型预测性能通过受试者工作特征(ROC)曲线评估,结果以曲线下面积(AUC)和相应的95%置信区间(CI)呈现。准确度(ACC)、敏感度(SEN)、特异度(SPEC)和F1分数使用从ROC曲线分析中最大化Youden指数的截断值确定。
使用独立t检验或Mann-Whitney U检验比较连续变量的特征,使用Fisher精确检验或χ2检验比较分类变量,并通过Benjamini-Hochberg校正调整p值。采用DeLong检验比较AUC。决策曲线分析(DCA)通过分析测试集中各种阈值概率下的净获益来评估模型的临床效用。使用Python(版本3.9)、R(版本4.1.2)和SPSS(版本26.0)进行统计分析。统计显著性定义为双侧p值 < 0.05。使用Benjamini-Hochberg程序调整多重检验。为了评估达到的样本量是否充足,使用G*Power软件(版本3.1.9.7)进行了事后效能分析。
本研究招募了210名患者:分为100名训练集、44名内部测试集和66名外部测试集。事后效能分析显示统计效能为87%,确认我们的样本量足够。术前活检与最终手术病理学比较显示,210例中有7例(3.3%)不一致,其中最终诊断比活检初步确定的级别更高或组织学亚型更具侵袭性。表1详细列出了不同队列中USC和EEC组内患者的特征。USC组的年龄和绝经后患者比例高于EEC组(p < 0.05),USC患者通常表现出更高的HE4水平、FIGO分期和组织病理学分级(p < 0.05)。USC和EEC组在ET/AP比率、肿瘤边界、浸润性生长模式、弥漫性分布、坏死存在、不均匀性、不均匀强化、深肌层浸润、宫颈间质浸润、附件受累和盆腔淋巴结转移方面也观察到显著差异(所有p < 0.05)。
在17个临床放射学特征中,使用LASSO算法确定了组织病理学分级、FIGO分期、ET/AP比率和弥漫性分布为显著特征(补充图3A)。观察者间和观察者内平均可靠性分别为0.821(95% CI 0.726–0.896)和0.859(95% CI 0.773–0.912),表明影像组学特征具有极好的一致性。总共保留了194个Spearman相关系数 > 0.9的肿瘤影像组学特征和160个DL特征用于进一步选择。使用LASSO算法,选择了30个影像组学特征和14个DL特征来构建影像组学、DL和组合模型。补充图3提供了关于LASSO算法所选特征的更多信息。
SVM模型使用训练集进行了优化,随后在内部和外部测试集上进行了评估。图3A-C显示了患者的预测评分,展示了模型的强大分类能力。表2展示了各种模型在训练和测试数据集上的性能指标。临床放射学模型在内部和外部测试集中分别实现了0.861(95% CI: 0.747-0.975)和0.700(95% CI: 0.552-0.848)的AUC。影像组学模型在内部和外部测试集中的AUC分别为0.934(95% CI: 0.862-0.999)和0.750(95% CI: 0.632-0.868)。DL模型在内部测试集中的AUC为0.869(95% CI: 0.757-0.980),在外部测试集中为0.704(95% CI:0.572-0.835)。综合模型显示出优异的预测性能。综合模型在内部测试集中展示了卓越的分类性能,AUC为0.957(95% CI: 0.904-1.000),准确度为0.886,敏感度为0.923,特异度为0.833,F1分数为0.906;而在外部测试集中,这些值分别为0.880(95% CI: 0.800-0.961)、0.742、0.636、0.955和0.767。
DeLong检验表明,综合模型在外部测试集中表现出显著优于临床放射学模型(AUC = 0.880 vs. 0.700, p < 0.05)和DL模型(AUC = 0.880 vs. 0.704, p < 0.05)的判别能力(图3E;补充图4)。
综合模型在外部测试集中表现出显著优于CR模型(AUC = 0.880 vs. 0.810, p < 0.05)和CDL模型(AUC = 0.880 vs. 0.688, p < 0.05)的判别能力(参见表2;补充图4)。DLR模型表现出优于临床放射学模型的预测性能,尽管在内部测试集(AUC = 0.908 vs. 0.861, p = 0.504)和外部测试集(AUC = 0.767 vs. 0.700, p = 0.499)中差异无统计学意义(图3D, E;补充图4)。准确度、敏感度和特异度值因模型而异,组合模型(如DLR模型在训练中准确度0.980,敏感度0.972,特异度1.000)和综合模型(在外部测试集中准确度0.742,敏感度0.923,特异度0.833)性能最佳。这些模型 consistently 优于单个模型,如R模型(外部测试集敏感度0.652)和C模型(外部测试集特异度0.647)。综合模型和DLR实现了最高的F1分数,综合模型在训练期间达到0.979,在内部测试集中达到0.906。决策曲线(图3F, G)表明,综合模型在内部和外部测试集中的大多数合理阈值概率下提供了优越的整体净获益。图4说明了突出显示对深度CNN识别的特征输出有显著贡献的图像区域的激活图。总体而言,使用基于影像组学和DL的多参数模型在USC和EEC的术前鉴别诊断中具有更好的预测价值。
与EEC相比,USC的特点是高转移和复发倾向,即使在早期阶段也是如此。因此,准确和无创地分类USC和EEC在临床实践中至关重要。我们的回顾性多中心研究显示,将从多参数MRI中提取的影像组学和DL特征与临床放射学特征相结合,可以提高术前区分USC和EEC的准确性。
在本研究中,我们观察到USC更常见于绝经后妇女,并且与HE4水平升高、晚期FIGO分期和更高的组织病理学分级相关。这些发现强调了USC的侵袭性,并与其他研究的结果一致。先前的研究报告称,子宫内膜癌患者的CA125和HE4中位数水平显著高于健康对照组。我们的研究发现,USC患者的血清HE4水平显著高于EEC患者(p < 0.001),而CA125水平未观察到显著差异。这表明HE4可能是EC鉴别诊断中更有效的肿瘤标志物,补充了结合超声检查和炎症标志物的现有诊断方法。此外,血清HE4水平升高可能与年龄、更深肌层浸润、子宫外疾病和较差预后相关,加强了其在风险分层中的临床效用。迄今为止,只有一项研究主要关注常规MRI征象来区分USC和EEC,其发现表明USC常呈现不均匀信号、腹膜播散和异常腹水,这与我们的观察结果一致。扩展这些发现,我们的研究确定了USC的成像特征表现为侵袭性生物学行为,包括更高的ET/AP比率、边界不清的肿瘤、浸润性生长模式、弥漫性分布、深肌层浸润、宫颈间质浸润、附件受累、盆腔淋巴结转移和腹膜播散。此外,USC表现出以坏死、不均匀性和不均匀强化为特征的异质性成像特征。通过整合LASSO算法确定的组织病理学分级、FIGO分期、ET/AP比率和弥漫性分布,我们的临床放射学模型在区分USC和EEC方面表现出强大的诊断性能,内部测试集AUC为0.861,外部测试集AUC为0.700。这种多模式方法呼应了子宫内膜癌诊断的新兴趋势,即结合成像参数和实验室生物标志物以提高诊断准确性。
在我们的研究中,我们利用从多中心数据中提取的全体积多参数MRI影像组学特征来提高诊断准确性,并提供对肿瘤异质性的全面洞察。影像组学模型包括来自CE-T1WI的15个特征、来自T2WI图像的10个特征和来自DWI的5个特征,表现出中等性能,在内部和外部测试集中分别实现了0.934和0.750的AUC值。源自CE-T1WI的特征数量众多,强调了其相对于其他成像方式的优势,因为它提供了更好的组织分化和对比分辨率,允许更精确地表征肿瘤的形态学和血管特征,从而能够更好地捕获指示肿瘤生物学和行为的相关影像组学特征。此外,我们的研究结果表明,T2WI序列可能在非增强MRI协议中用于诊断子宫内膜疾病起着关键作用,提供了出色的对比度和空间分辨率,有助于详细可视化解剖特征,这对于准确诊断和评估至关重要,与先前的报告一致。此外,我们影像组学模型中最大的特征子集来自灰度共生矩阵(GLCM)和相关分析,提供了对子宫内膜癌组织病理学特征的关键见解,有助于区分肿瘤分级和侵袭性。通过评估诸如逆方差、集群阴影和区域百分比等特征,临床医生可以更好地了解肿瘤的结构复杂性及其对预后和治疗决策的潜在影响。
DL的最新进展已证明其在妇科肿瘤成像中的巨大潜力,研究表明其能够检测医学图像中的复杂模式,并实现与人类专家相当甚至超越的诊断准确性。在我们的研究中,影像组学和DL特征都是从相同手动分割的感兴趣体积中提取的。然而,它们代表了根本不同的图像分析范式。手工影像组学依赖于预定义的数学描述符(例如,纹理、形状、一阶统计)来量化明确的肿瘤特征,提供高可解释性。相比之下,深度学习方法通过多个卷积和非线性层处理原始图像数据,自主学习层次化的、空间上下文的、并且通常是抽象的特征,这些特征未被传统的影像组学框架捕获。整合两种特征类型的模型(DLR)在外部测试集上表现出优于单独使用任一模型的性能(AUC = 0.767 vs. 影像组学0.750 和 DL 0.704),表明它们的特征是互补的。这种互补性进一步得到以下观察结果的支持:影像组学模型实现了更高的特异度(0.909 vs. 0.818),而DL模型显示出更高的敏感度(0.545 vs. 0.523)在外部测试集中。我们认为,虽然影像组学有效量化了已知的形态学模式,但DL可能捕获肿瘤内更细微和复杂的空间层次,为区分USC和EEC提供了独特的判别信息。值得注意的是,在我们的队列中,仅基于传统影像组学特征的模型优于DL模型。这一观察结果与一些先前报道DL优于影像组学的研究形成对比。我们假设这种差异可能归因于深度学习的数据饥渴性;卷积神经网络通常需要大规模数据集来有效学习复杂且稳健的空间特征。我们有限的样本量,特别是对于少数USC类别,可能限制了DL模型的性能并增加了其过拟合的敏感性。这一发现强调了在选择和开发用于医学成像任务的人工智能方法时,数据集大小和特征的重要性。
提出的综合模型表现出卓越的性能,内部测试集AUC为0.957,外部测试集AUC为0.880。它有效地以非侵入性和稳健的方式从医学图像中表征不同水平的瘤内异质性,从而为癌症提供了宝贵的见解。高维特征的整合提高了疾病诊断和预测的敏感性,为临床医生提供了详细信息。我们模型的敏感性要求其作为决策支持工具在多学科框架内应用。当临床怀疑、活检结果或常规成像特征提示侵袭性肿瘤时,阴性输出不应排除全面分期手术。其主要价值在于其高特异性,可以为管理具有模糊术前发现的病例提供强有力的支持证据。据我们所知,这项研究是首次应用DL特征和传统影像组学特征来区分USC和EEC。我们的研究特点是利用了迄今为止最大的样本量,并采用独立的外部测试集进行模型验证,取得了令人满意的预测效率。通过为临床医生提供可靠的个性化治疗分层工具,我们的模型补充了现有的用于子宫内膜癌检测和风险评估的AI系统,最终为子宫内膜癌管理的更全面的AI驱动诊断生态系统做出了贡献。
我们的研究有几个局限性。首先,其回顾性设计带有固有的选择偏倚风险,因为只包括接受手术切除的患者,从而排除了那些无法手术的晚期疾病或保守治疗的患者——可能限制了普适性。其次,尽管进行了协议协调,但机构间的扫描仪变异性可能会引入信息偏倚和残留的批次效应,尽管通过归一化和特征稳定性分析进行了缓解,但仍然是一个问题。第三,手动ROI勾画本质上是主观的;我们通过仅使用具有高度一致性(ICC > 0.75)的特征来最小化观察者间变异性,但未来需要全自动分割。第四,虽然我们在模型中调整了关键混杂因素,但来自未测量因素的残留混杂仍然是可能的。第五,额外的敏感性分析,例如采用替代特征选择方法或机器学习算法,可以进一步加强稳健性。最后,由于影像组学和深度学习特征的高维性相对于我们的样本量,特别是对于罕见的USC亚型,过拟合的潜力仍然是一个限制。在更大的、多中心队列中进行进一步的前瞻性验证对于确认我们模型的最终普适性至关重要。
总之,基于我们的数据集,本研究表明,这种整合了多参数MRI影像组学、深度学习特征和临床放射学特征的预测模型,可以有效区分USC和EEC。这项研究的发现可以显著影响临床决策,最终为EC带来更个性化的治疗策略和改善的患者结局。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号