基于机器学习的影像组学联合临床CT特征预测磨玻璃结节肺腺癌浸润性研究

《BMC Cancer》:Machine learning-based prediction of invasiveness in lung adenocarcinoma presenting as ground-glass nodules using radiomics and clinical CT features

【字体: 时间:2025年11月04日 来源:BMC Cancer 3.4

编辑推荐:

  本研究针对肺腺癌磨玻璃结节术前浸润性评估难题,创新性地整合影像组学特征与临床CT指标,通过多中心回顾性研究构建机器学习预测模型。结果表明随机森林模型在训练集、测试集和外部验证集的AUC分别达0.854、0.769和0.778,显著优于单一临床模型,为肺腺癌个性化治疗决策提供了客观量化工具。

  
在全球癌症死亡谱上,肺癌始终高居首位,其中肺腺癌(Lung Adenocarcinoma, LA)作为最主要的病理亚型,约占全部肺癌病例的55%-60%。随着低剂量螺旋CT(LDCT)筛查技术的普及,越来越多的肺腺癌以磨玻璃结节(Ground-Glass Nodules, GGNs)的形式被早期发现。这类结节在CT影像上表现为模糊的云雾状阴影,既可代表良性病变,也可能是从癌前病变到浸润性癌的连续发展过程。
临床上最棘手的难题在于:如何术前无创地区分低浸润性( minimally invasive adenocarcinoma, MIA/ Grade 1 invasive adenocarcinoma)与高浸润性(Grade 2/3 invasive adenocarcinoma)肺腺癌?这直接关系到手术方案的选择——是局部楔形切除就能解决问题,还是需要更广泛的肺叶切除甚至术后辅助治疗?传统上,医生主要依赖CT影像的形态学特征(如结节大小、实性成分比例、分叶、毛刺等)进行主观判断,但不同医师之间评估差异大,且对某些表现不典型的早期浸润癌容易误判。影像组学(Radiomics)技术的出现带来了转机,它能够从医学图像中提取大量人眼难以识别的定量特征,深入揭示肿瘤内部的异质性信息。
为解决这一临床痛点,兰州大学第二医院 Mingzhi Lin 等学者在《BMC Cancer》上发表了题为"Machine learning-based prediction of invasiveness in lung adenocarcinoma presenting as ground-glass nodules using radiomics and clinical CT features"的多中心研究。该研究创新性地将影像组学与临床CT特征相结合,利用多种机器学习算法构建预测模型,旨在为GGN型肺腺癌的浸润性提供精准、客观的术前评估工具。
关键技术方法概述
研究团队收集了来自两个医疗中心的357例经病理证实的肺腺癌患者数据(主要队列312例,外部验证队列45例)。从术前高分辨率CT(HRCT)图像中,研究者手动勾画结节感兴趣区域(ROI),并利用PyRadiomics平台提取了1129个影像组学特征,同时评估了16个临床CT语义特征。为处理高维数据并提升模型效能,研究采用主成分分析(PCA)和最小绝对收缩与选择算子(LASSO)两种方法对影像组学特征进行降维处理。随后,应用随机森林(RF)、支持向量机(SVM)、逻辑回归(LR)、XGBoost和LightGBM五种机器学习算法,分别构建了基于临床CT特征、临床CT特征+PCA降维影像组学、临床CT特征+LASSO降维影像组学的预测模型。通过受试者工作特征曲线下面积(AUC)、灵敏度、特异性、决策曲线分析(DCA)等指标全面评估模型性能,并采用SHAP(SHapley Additive exPlanations)方法对最优模型进行可解释性分析。
研究结果
患者基线特征与临床CT特征分析
表1展示了研究人群的详细特征。在主要队列中,高浸润性组患者的平均年龄显著高于低浸润性组(58.21±9.4岁 vs. 55.1±9.79岁,P=0.01)。在影像学特征方面,高浸润性GGN更常表现为混合性磨玻璃密度(67.8% vs. 41.4%)、边缘不规则(49.7% vs. 26.6%)、毛刺征(44.8% vs. 19.5%)、分叶征(41.3% vs. 23.7%)、胸膜凹陷征(53.8% vs. 34.3%)和血管集束征(61.5% vs. 47.3%)。此外,高浸润性结节的实性成分比例(Consolidation Tumor Ratio, CTR)、结节最大径和实性成分最大径均显著大于低浸润性结节(均P<0.001)。这些发现与临床实践观察一致,表明这些特征与肿瘤的侵袭性行为密切相关。
特征筛选与模型构建
经过严格的统计学筛选(包括错误发现率FDR校正和Pearson相关性分析),研究最终确定了422个与浸润性显著相关的变量用于模型构建。PCA分析提取的前10个主成分累计贡献了90.5%的方差,而LASSO回归(λ.min=0.03647)筛选出10个最具预测价值的影像组学特征。
模型性能比较与验证
模型性能评估结果(表2和表3)显示,单纯基于临床CT特征的模型中,逻辑回归(LR)在外部验证集表现最佳(AUC=0.770)。然而,当融合了影像组学特征后,模型性能得到显著提升。其中,基于临床CT特征-PCA影像组学的随机森林(RF)模型展现了最优异的综合性能:在训练集、测试集和外部验证集的AUC分别达到0.854(95% CI: 0.808-0.901)、0.769和0.778。该模型同样表现出高灵敏度(训练集0.895)和良好的特异性。相比之下,基于临床CT特征-LASSO影像组学的RF模型性能稍逊(训练集AUC=0.831)。决策曲线分析(DCA)表明,RF模型在大多数风险阈值下都能提供比"全干预"或"全不干预"策略更高的临床净收益。
模型可解释性分析
SHAP分析揭示了影响模型预测的关键特征。在最优的RF模型中,实性成分比例(CTR)是最重要的预测因子,其对模型输出的贡献最大。此外,胸膜凹陷征、血管集束征以及源自灰度共生矩阵(GLCM)和灰度游程长度矩阵(GLRLM)的纹理特征(如"wavelet-HLL GLCM Idmn", "log-sigma-3-mm-3D GLRLM ShortRunHighGrayLevelEmphasis")也对预测浸润性具有重要价值。这些纹理特征反映了结节内部的异质性,与肿瘤的侵袭性生物学行为相关。
研究结论与意义
本研究成功构建并验证了一个融合影像组学和临床CT特征的机器学习模型,能够准确、客观地术前预测表现为磨玻璃结节的肺腺癌的浸润程度。随机森林算法结合PCA降维策略被证明是处理此类多模态医学数据的有效方法。该模型的优势在于其非侵入性、可重复性以及能够捕捉人眼难以察觉的影像学模式,从而弥补了传统放射科医生主观评估的局限性。
这项研究的临床意义重大。首先,它为外科医生制定个性化手术方案提供了重要的决策支持。对于预测为低浸润性的结节,可以考虑创伤更小的亚肺叶切除(如楔形切除或肺段切除),有助于保留患者更多的肺功能,提高术后生活质量。而对于预测为高浸润性的结节,则提示可能需要更彻底的肺叶切除加系统性淋巴结清扫,甚至术后辅助治疗,以期降低复发风险,改善预后。其次,该研究展示了多中心数据的应用价值,增强了模型的可推广性。最后,SHAP等可解释性人工智能(XAI)技术的应用,增强了临床医生对模型预测结果的信任度,有助于人机协作,共同提升诊疗水平。
当然,本研究也存在一些局限性,如回顾性设计、样本量有限(尤其外部验证队列)、患者群体相对单一(均为手术患者)等。未来研究需要通过更大规模、前瞻性、多中心的数据进行进一步验证,并探索将PET-CT、MRI等多模态影像信息乃至肿瘤微环境标志物整合入模型,以期在肺癌精准医疗的道路上走得更远。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号