基于术前CT瘤内与瘤周影像组学特征预测结直肠癌肝转移复发风险:一项多中心机器学习研究

【字体: 时间:2025年09月24日 来源:Frontiers in Oncology 3.3

编辑推荐:

  本研究创新性地结合术前CT瘤内(ROIIntra)与瘤周(ROIPeri2mm、ROIPeri4mm、ROIPeri6mm)影像组学特征,通过支持向量机(SVM)、随机森林(RF)和多层感知器(MLP)算法构建预测模型,证实MLP算法在ROIIntra+Peri4mm区域特征组合中表现最优(测试集AUC=0.855),为结直肠癌肝转移(CRLM)患者术后复发风险提供非侵入性预测工具。

  

引言

结直肠癌是全球第三大常见癌症,约占所有癌症病例的10%,同时也是全球癌症相关死亡的第二大原因。约25%的结直肠癌患者会发生肝转移,而肝切除术仍是主要的根治性治疗方法。尽管手术技术和肿瘤内科的进步提高了可切除率,但多项研究表明肝切除术后汇总复发率仍高达60-80%,构成这些患者死亡的主要原因。因此,精确预测复发风险对于制定结直肠肝转移(CRLM)患者的个性化治疗策略和准确预后评估至关重要。

临床上,肝活检的诊断效用常因其侵入性、潜在操作并发症以及因组织取样不足或取样错误导致的假阴性结果风险升高而受限。作为CRLM患者的常规成像方式,术前计算机断层扫描(CT)不仅提供详细的解剖信息,包括肝脏病变的大小、位置和形态,还捕获肿瘤生物学的微妙间接指标。这些肉眼无法察觉的微观特征可通过影像组学系统提取,通过识别CT图像中的瘤内模式、纹理异质性和空间关系,最终将其转化为可量化、可挖掘的数据,以增强诊断和预后洞察。支持向量机(SVM)、随机森林(RF)和多层感知器(MLP)作为具有强大特征提取能力的成熟机器学习算法,能够开发CRLM复发风险的预测模型。通过将基于影像组学的CT特征提取与SVM、RF和MLP建模框架相结合,这种方法为CRLM管理中的个性化风险分层提供了一种新颖的非侵入性解决方案。

目前基于影像组学的CRLM术前CT成像研究主要集中于风险预测、化疗反应和预后。然而,在开发术后复发风险预测模型方面仍存在关键空白,而这是该患者群体长期生存的主要决定因素。此外,肿瘤的演变和进展受肿瘤内细胞与瘤周区域成分之间相互作用的影响。先前研究表明,肿瘤不仅由恶性细胞组成,还包括基质成分、免疫元素和炎症元素。这些因素诱导基质重塑,创造有利于肿瘤进展的微环境。肿瘤坏死因子信号通路与癌细胞驱动的异常血管形成以及侵袭和转移相关,与瘤周区域的特征有关。有鉴于此,肿瘤的瘤内和瘤周微环境都可能是关键生物信号和CRLM复发指标的资源库。

材料与方法

患者队列

这项回顾性、多中心、经机构审查委员会(IRB)批准的研究确定了201例经证实患有结直肠癌和CRLM的患者,包括来自医院一的148例CRLM患者和来自医院二的53例患者。该机构的伦理委员会批准了这项研究并放弃了知情同意。纳入标准:1)病理证实的CRLM;2)肝脏肿瘤和非肿瘤性肝实质的组织病理学报告可用;3)肝切除术前6周内获得的术前门静脉期对比增强CT成像;4)随访时间至少24个月。随访过程包括定期临床评估,包括每年进行血清肿瘤标志物检测和影像学评估。排除标准:1)术前肝动脉灌注化疗;2)先前的局部肿瘤消融治疗或超过三次的肝楔形切除;3)术前影像学未见明显肿瘤。

成像协议

所有研究参与者均按照预定义的成像协议接受了标准化的对比增强CT扫描。使用多层CT扫描仪进行腹部成像,关键设置包括:自动毫安(autoMA)范围220至380,噪声指数12至14,旋转时间0.7至0.8毫秒,扫描延迟80秒。

瘤内分割与瘤周扩张

使用ITK-SNAP软件在CT图像上进行瘤内分割。两位分别具有8年和10年腹部影像诊断经验的放射科医生独立进行分割过程。如果两位放射科医生定义的感兴趣区域(ROI)差异≥5%,则由一位具有二十年专业经验的资深放射科医生进行重新分割以最终确定ROI。分割后的ROI作为ROIIntra,使用标准形态学操作将其扩展2毫米、4毫米和6毫米到瘤周区域,分别产生ROIPeri2mm、ROIPeri4mm和ROIPeri6mm。ROIPeri k mm排除了皮肤、空气和肌肉。

数据预处理

在提取影像组学特征之前,所有CT图像都经过重采样, achieving 统一的体素分辨率为1×1×1 mm3。随后,使用25的箱宽对图像的强度直方图进行离散化,确保在整个数据集中提取的特征具有一致性和标准化。这一预处理步骤对于保持提取的影像组学特征的可比性和可靠性至关重要。

影像组学特征提取

使用开源软件PyRadiomics从ROI中提取影像组学特征。应用了包括Original、AdditiveGaussianNoise、Binomial、Normalize、LaplacianSharpening、CurvatureFlow、wavelet、ShotNoise、BoxMean、LoG、DiscreteGaussian和BoxSigmaImage在内的12种滤波器的综合集合,以增强影像组学特征的提取。本研究中的201名患者产生了1197个高维影像组学特征。为了降低影像组学特征集中固有的复杂性或偏差,采用了降维技术。特征降维的主要目的是在保留最具信息量的特征的同时简化特征空间。在训练数据集中,我们首先使用最小绝对收缩和选择算子(LASSO)回归分析进行特征降维,正则化参数α设置为0.001。随后,基于最大相关性和最小冗余(mRMR)方法选择前15个相关性最高的特征。这些方法有助于选择最具判别性的特征,从而提高后续预测模型的性能。

模型构建

使用从ROIIntra及其瘤周扩展(ROIIntra+Peri2mm、ROIIntra+Peri4mm和ROIIntra+Peri6mm)提取的影像组学特征,利用机器学习算法(包括SVM、RF和MLP)开发预测模型,以预测CRLM的复发风险。

统计分析

在计数数据分析中,使用卡方检验进行组间比较,该检验适用于分类变量。对于连续数据,根据数据的正态性假设,使用Mann-Whitney U检验或独立样本t检验进行组间比较。预测模型的性能使用几个指标进行评估,包括受试者操作特征曲线下面积(AUC)、敏感性和特异性。决策曲线分析(DCA)和校准曲线分别用于独立评估预测模型的稳定性和临床净收益。这些指标提供了对模型区分不同结果能力的全面评估。所有统计分析均使用R软件进行。采用P < 0.05的显著性水平表示统计学显著差异。

结果

临床特征的统计分析

共纳入114例复发性CRLM患者和87例无复发患者。在临床特征中,两组在多叶存在和最大肿瘤直径方面观察到显著差异。因此,将多叶存在和最大肿瘤直径作为临床指标纳入预测模型。选择这两个变量是因为它们具有统计学显著性,表明它们在影响CRLM复发风险方面具有潜在重要性。包含这些临床指标通过考虑相关的患者特异性因素,增强了模型准确预测复发的能力。

影像组学特征选择与预测性能

从基于CT的ROI(ROIIntra、ROIIntra+Peri2mm、ROIIntra+Peri4mm和ROIIntra+Peri6mm)中,最终选择了15个与复发风险显著相关的影像组学特征。通过将影像组学特征与临床特征相结合,并使用SVM、RF和MLP构建预测模型,实现了对CRLM患者复发风险的预测。三种机器学习模型(SVM、RF和MLP)的预测性能在将瘤周区域纳入影像组学特征后 consistently 提高。使用ROIIntra+Peri4mm的MLP模型观察到最佳性能,在训练集中达到最高AUC为0.905(95% CI:0.846 - 0.947),在测试集中为0.855(95% CI:0.731 - 0.936)。所有九个模型的显著性水平P均小于0.0001。

ROC曲线说明,使用CT瘤内和瘤周影像组学特征构建的模型能有效预测CRLM的复发风险,所有模型在测试集中的AUC值均超过0.735。基于H-L检验,SVM模型的ROIIntra、ROIIntra+Peri2mm、ROIIntra+Peri4mm和ROIIntra+Peri6mm模型与实际观测值相比的P值分别为0.2262、0.2298、0.3631和0.0110。RF模型的相应P值分别为0.4532、0.3038、0.3190和0.1586。MLP模型的相应P值分别为0.3068、0.3845、0.8556和0.4218。决策曲线分析评估了所有预测模型(ROIIntra、ROIIntra+Peri2mm、ROIIntra+Peri4mm和ROIIntra+Peri6mm)在一系列阈值概率下的临床效用。校准曲线评估了预测概率与观测结果之间的一致性。结果表明,所有模型都提供了净收益,表明它们在预测CRLM患者复发风险方面具有潜在的临床适用性。

讨论

基于影像组学的术前CT成像分析已被广泛验证用于预测CRLM患者的转移风险、化疗反应和预后。然而,影像组学在复发风险分层方面的潜力在该患者群体中相对未被充分探索。这一知识空白尤其令人担忧,因为CRLM的复发模式高度异质,肝转移和局部肝复发表现出不同的临床行为。同时,现有研究主要集中于病灶内特征,忽略了瘤周纹理模式的复发价值,这些模式可能反映与肿瘤播散相关的微环境变化。为了解决这些空白,我们的研究通过使用四种不同的影像组学特征集(源自瘤内ROI(ROIIntra)及其瘤周扩展(ROIIntra+Peri2mm、ROIIntra+Peri4mm和ROIIntra+Peri6mm)构建单独的SVM、RF和MLP算法,系统评估了影像组学模型对复发风险的预测性能。

在生物学上,瘤周区域在肿瘤进展中起着关键作用,因为它是癌细胞与基质组织、免疫细胞和血管相互作用的地方,这些过程驱动局部侵袭和复发。对肝转移的研究表明,病理变化超出了可见的肿瘤边界,在距离肿瘤边缘不同距离处观察到独特的生物学特征。具体来说,2毫米区域主要反映即时的肿瘤-基质相互作用,包括早期侵袭活动和细胞外基质重塑。4毫米区域捕获更广泛的旁分泌效应和免疫反应,这些反应介导肿瘤的生存和扩散。6毫米区域包含更远的微环境变化,例如肝窦重塑,这可能促进微转移的形成。例如,Shang等人通过分析CT成像上肿瘤核心和4毫米瘤周区域提取的影像组学特征,预测了肺腺癌的侵袭性。Qin等人通过MRI分析证实,系统评估超出肿瘤边缘2毫米、4毫米和6毫米扩展的瘤周ROI,为局部晚期直肠癌患者新辅助放化疗后的病理治疗反应评估提供了临床显著的预测价值。临床上,这些距离与先前对恶性肿瘤的影像组学研究一致,其中2-6毫米的瘤周区域与复发风险和治疗反应相关。我们选择2毫米、4毫米和6毫米是为了跨越这个临床相关范围,使我们能够捕获近端和远端微环境对复发的影响。

影像组学特征的提取基于定量成像分析的原理,该系统量化了医学图像内体素模式的空间和强度分布。这些特征捕获了肿瘤的异质性和微环境特征,因此在医学研究中具有显著的生物学相关性。如表格所示,第一列显示与影像组学特征对应的类别,第二列列出所选特征的名称,第三列呈现影像组学特征与复发风险之间的mRMR相关系数。我们分析了与复发风险最相关的3个影像组学特征的生物学意义。Original_glrlm_LongRunHighGrayLevelEmphasis测量具有高灰度强度值的长连续像素运行的分布。高值可能对应于肿瘤内高度有序的增殖区域或坏死区域周围的高细胞密度区,并与肿瘤分化程度相关。Original_firstorder_Mean表示肿瘤ROI内所有像素强度的算术平均值。低平均值可能指示坏死区域,而高值提示血管化的肿瘤区域。Original_shape_Sphericity测量肿瘤形状接近完美球体的程度。较低的球形度与浸润性生长模式和促结缔组织增生反应相关。

由ROIIntra+Peri2mm提取的影像组学特征如表所示。与复发风险最相关的前3个影像组学特征分别是wavelet-LLH_glcm_Correlation、wavelet-LLH_glcm_DifferenceEntropy、wavelet-LLH_gldm_DependenceNonUniformity。Wavelet-LLH_glcm_Correlation量化了在LLH小波空间中像素与其邻居的相关程度。高值表示有组织的组织结构,例如规则的肿瘤基质,低值提示混乱的组织模式。Wavelet-LLH_glcm_DifferenceEntropy计算灰度级差异分布的熵。较高的值表示更异质的组织模式。Wavelet-LLH_gldm_DependenceNonUniformity测量局部邻域中灰度级依赖性的变异性。它反映了CRLM肿瘤中复杂的微环境相互作用。

由ROIIntra+Peri4mm提取的影像组学特征如表所示。与复发风险最相关的前3个影像组学特征分别是wavelet-HHL_glszm_HighGrayLevelZoneEmphasis、wavelet-HHL_glszm_LargeAreaEmphasis、wavelet-HHL_glszm_ZoneEntropy。Wavelet-HHL_glszm_HighGrayLevelZoneEmphasis测量高灰度级区域的相对分布,并强调HHL小波变换图像空间内具有较高灰度级值的区域。它可能与活跃肿瘤代谢区域或高血管化子区域相关。Wavelet-HHL_glszm_LargeAreaEmphasis量化大致均匀区域的分布,并强调HHL小波空间内较大的区域大小。它可能与肿瘤稳定性区域或明确的生长模式相关。Wavelet-HHL_glszm_ZoneEntropy评估整个图像中区域大小分布的随机性或无序性,特别是在HHL小波变换空间内。高值表明肿瘤区域的分布更不规则和异质,指示复杂的微环境相互作用或多样的细胞组成。低值意味着肿瘤区域的排列更均匀和有组织。

由ROIIntra+Peri6mm提取的影像组学特征如表所示。与复发风险最相关的前3个影像组学特征分别是wavelet-LLL_glrlm_GrayLevelNonUniformityNormalized、wavelet-LLL_glrlm_LongRunEmphasis、log-sigma-5-mm-3D_glcm_JointEntropy。Wavelet-LLL_glrlm_GrayLevelNonUniformityNormalized量化运行内灰度级分布的均匀性。它可能与具有不规则细胞密度的浸润性生长模式相关。Wavelet-LLL_glrlm_LongRunEmphasis检测LLL滤波图像中的大规模和空间相干组织区域。较高的值可能与组织良好的肿瘤结构相关。Log-sigma-5-mm-3D_glcm_JointEntropy增强了5毫米分辨率下的边缘,并捕获中程异质性。

纳入瘤周区域(Peri2mm、Peri4mm、Peri6mm) consistently 提高了模型性能,与单独的病灶内特征(ROIIntra)相比。例如,在训练集中,MLP的AUC从0.872(ROIIntra)增加到0.929(ROIIntra+Peri4mm),而在测试集中,性能最佳的模型(使用ROIIntra+Peri4mm的MLP)的AUC为0.855,而单独使用ROIIntra的SVM为0.735。复发风险预测模型的性能随着瘤周影像组学特征的加入而显著提高,证实了瘤周微环境中的肿瘤-基质相互作用有助于转移进展。在所评估的影像组学区域中 - ROIIntra、ROIIntra+Peri2mm、ROIIntra+Peri4mm和ROIIntra+Peri6mm - ROIIntra+Peri4mm在所有机器学习模型中表现出敏感性和特异性的最佳平衡。尽管SVM模型在测试集中将瘤周区域从ROIIntra+Peri4mm扩展到ROIIntra+Peri6mm时AUC有边际改善(+0.002),但RF和MLP模型在较小的ROIIntra+Peri4mm特征下表现出 superior 性能。这表明,对于这些算法,包含过多的瘤周信息可能会引入噪声或冗余,从而降低预测准确性。最佳瘤周扩展大小似乎是上下文相关的,较小的区域(4毫米)可能在特征信息量和模型泛化能力之间取得更好的平衡。相比之下,最小的瘤周包含(ROIIntra+Peri2mm)未能捕获足够的预后信息,强调了优化影像组学捕获半径的重要性。

机器学习模型的选择显著影响预测准确性。选择SVM、RF和MLP是基于它们在影像组学研究中的独特优势和广泛适用性。使用SVM是因为其在处理高维数据方面的鲁棒性以及其寻找最优分类超平面的能力,鉴于我们影像组学特征集的高维性,这很有价值。选择RF是因为其在捕获特征之间的非线性关系和相互作用方面的优越性,以及其内置的特征重要性评估。包含MLP是为了考虑数据中传统的统计模型可能遗漏的潜在复杂非线性模式,利用其建模分层特征表示的能力。SVM、RF和MLP模型在不同影像组学特征下的性能在训练集和测试集中存在显著差异。MLP在训练和测试中均表现出 superior 性能,特别是在纳入瘤周特征时,这可能归因于其建模分层特征相互作用的能力。RF在各个特征下表现一致,但通常落后于MLP,表明集成方法可能无法充分利用此上下文中的影像组学特征空间。SVM虽然计算效率高,但在测试中表现出最大的性能下降(例如,对于ROIIntra+Peri4mm,AUC从0.893下降到0.806),突显了其在高维影像组学数据中容易过拟合的脆弱性。MLP的 superior 性能可归因于其独特的能力,能够捕获我们影像组学数据集中固有的复杂非线性关系和分层特征相互作用,特别是组合的瘤内和瘤周特征。与专注于寻找二元分类最优超平面的SVM或依赖集成决策树的RF不同,MLP的多层神经网络结构允许其对高维影像组学特征中的复杂模式进行建模。在我们的数据集中,复发风险受多种因素共同影响,包括肿瘤大小、边缘状态和瘤周炎症变化,这些特征在成像数据中表现为非线性关联。此外,MLP的增量学习能力使其能够适应我们训练和外部验证队列之间成像协议的细微变化,有助于其在两个数据集上的稳定性能。

在现实世界的临床环境中,对于新诊断的CRLM患者,该模型可以在术前预测术后复发风险。例如,高复发风险的患者可能需要更积极的治疗策略,例如扩大肝切除范围,结合射频消融,或给予术前新辅助化疗以降低微转移活性。相比之下,低风险患者可以采用更保守的手术方法,例如局部肝段切除,以避免过度治疗引起的并发症风险。术后随访对于降低复发性CRLM的死亡率至关重要。这项研究可以帮助医生为不同风险分层的患者制定差异化的随访计划。例如,高风险患者需要更短的随访间隔,并应优先考虑更敏感的监测方法,低风险患者可以延长随访周期,这减少了不必要的医疗干预和患者的经济负担,同时优化了医疗资源的分配。

为了推动模型从研究阶段向常规临床工具转化,需要分阶段完成以下步骤:1)当前模型基于两个中心的数据构建。下一步将涉及在不同地区和不同医疗资源水平的中心进行外部验证,以验证模型在不同CT设备参数下的稳定性。对于验证过程中发现的任何偏差,可以通过标准化图像预处理或迁移学习算法来优化模型的适应性。2)该模型需要嵌入到医院现有的信息系统中,实现图像上传、特征提取和风险评分生成的自动化流程。3)需要进行多学科培训,以帮助医务人员理解模型的原理、适用范围和局限性,从而避免过度依赖模型或错误判断风险。4)为了将模型推广为临床决策工具,需要按照医疗器械监管要求完成申请流程,并提供其功效和安全性数据。目标是逐步将模型从研究工具转变为常规临床辅助方法,最终支持CRLM患者的个体化管理并改善其预后。

我们的研究有几个局限性值得考虑。首先,回顾性设计本身会引入潜在偏差,例如患者入组中的选择偏差以及不同时间段临床数据收集的变异性。这些因素可能会限制模型预测性能的普遍性,因为回顾性设置无法完全模拟现实世界的临床场景,其中患者管理是动态的并受不断发展的临床实践影响。其次,虽然我们进行了外部验证以测试模型的鲁棒性,但外部队列的样本量相对较小,这限制了检测预测准确性细微差异的统计效力。需要更大的外部验证队列,理想情况下来自具有不同患者群体和临床实践的多中心,以确认模型在不同医疗环境中的可扩展性和适应性。此外,数据集中缺乏分子遗传数据(如KRAS或BRAF突变)妨碍了对复发风险生物学基础的更深入探索,从而限制了研究的转化影响。为了解决这些局限性,我们计划在未来进行前瞻性、多中心、更大样本量的研究。这些研究将标准化数据收集协议以最小化偏差,并纳入全面的分子分析以将影像组学特征与其生物学基础联系起来。扩大外部验证队列以包括更多样化的患者群体将进一步增强模型的临床适用性。通过这些努力,我们旨在完善模型并加强其转化为临床实践的潜力。

结论

总之,基于MLP的、使用ROIIntra+Peri4mm影像组学特征的模型可能为CRLM的复发风险分层提供预测准确性和泛化能力之间的最佳权衡。这项研究预计将对CRLM患者的个性化诊断和治疗水平以及预测复发风险的准确性产生积极影响,最终提高患者的生存获益。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号