基于CT影像组学与集成机器学习的肺结节良恶性分类预测模型研究

《Journal of the Egyptian National Cancer Institute》:Predictive radiomics based ensemble machine learning approach in CT lung nodule diagnosis

【字体: 时间:2025年10月14日 来源:Journal of the Egyptian National Cancer Institute 1.8

编辑推荐:

  本研究针对CT肺结节诊断中缺乏可靠影像组学特征筛选标准的问题,开发了一种结合小波包变换纹理特征与集成特征选择方法的机器学习框架。通过LIDC数据库1018例CT数据验证,研究显示基于Bagged分类集成树特征选择(BACET)的Ensemble Subspace KNN模型在肺结节良恶性分类中表现最优,AUROC达93.4%,准确率88.3%,F1分数85.2%。该研究为肺癌早期诊断提供了可靠的计算机辅助决策支持。

  
在全球癌症谱系中,肺癌以其高发病率和高死亡率持续威胁着人类健康。据世界卫生组织统计,肺癌每年导致约180万人死亡,新发病例高达221万例。早期发现肺内微小结节并准确鉴别其良恶性,成为提高肺癌患者生存率的关键环节。计算机断层扫描(CT)作为非侵入性影像学检查手段,能够清晰呈现结节形态特征,但传统依赖放射科医生视觉评估的方式存在主观性强、诊断一致性不足等局限性。
近年来,影像组学(Radiomics)技术的兴起为肺癌精准诊断带来了新机遇。这项技术通过将医学图像转化为可挖掘的高维数据,揭示病灶内部异质性等肉眼难以识别的特征。然而面对从CT图像中提取的海量特征,如何筛选出最具判别力的特征子集,构建稳定可靠的诊断模型,仍是当前研究的难点。正是为了突破这一瓶颈,Arooj Nissar团队在《Journal of the Egyptian National Cancer Institute》上发表了这项创新研究。
研究团队采用多维度特征提取策略,从LIDC(Lung Image Data Consortium)数据库的1018例CT病例中,系统获取了几何特征、传统纹理特征(包括灰度共生矩阵GLCM、灰度游程矩阵GLRLM、灰度差异统计GLDM)以及基于Daubechies小波包变换(WPT)的深度纹理特征,共计7455个影像组学特征。针对特征维度灾难问题,研究创新性地应用两种集成特征选择方法——Boosted分类集成树(BOCET)和Bagged分类集成树(BACET),从海量特征中筛选出最具判别力的8个关键特征。
特征重要性分析显示,结节面积(Area)、周长(Perimeter)、长轴长度(MajorAxisLength)等几何特征,以及簇突出度(Cluster Prominence, CP)、簇阴影(Cluster Shade, CS)等纹理特征在良恶性鉴别中发挥关键作用。特别值得注意的是,基于小波包变换的特征在重要特征中占比显著,印证了多尺度分析对捕捉结节内部异质性的价值。
在模型构建阶段,研究团队对比了9种前沿机器学习算法的性能,包括支持向量机(SVM)的多个变体(精细高斯SVM、中等高斯SVM、粗糙高斯SVM)、决策树(DT)、集成提升树(BOCET)、集成装袋树(BACET)、RUSBoost集成树以及随机子空间集成(判别分析子空间和K最近邻子空间)。通过五折交叉验证重复50次的严谨评估方案,全面衡量各模型的区分度、准确性和稳定性。
特征选择效能比较
BACET特征选择方法整体表现优于BOCET。当采用BACET筛选特征时,Ensemble Subspace KNN模型展现出最佳综合性能,其受试者工作特征曲线下面积(AUROC)达到93.4%,准确率88.3%,F1分数85.2%。而精细高斯支持向量机(FGSVM)在敏感性(97.1%)方面表现尤为突出,意味着其对恶性结节具有极高的识别能力,这对于临床筛查具有重要意义。集成RUSBoosted树则在精确度(93.4%)和特异性(83.1%)指标上领先,显示其较低的误诊率。
与传统方法的性能对比
与既往研究相比,该研究提出的方法在多项指标上展现出竞争优势。例如,Dhara等人采用二维和三维GLCM特征结合SVM的方法敏感性为89.73%,而本研究最佳模型敏感性达到97.1%。Xie等人开发的多视图知识协同深度学习模型准确率为91.60%,本研究最佳模型准确率为88.3%,虽略低但在其他指标上表现均衡。特别值得关注的是,Alzubaidi等人使用Gabor特征结合SVM的方法虽取得了97%的准确率和96%的敏感性,但其研究基于平衡数据集(500例良性和500例恶性),而本研究使用的LIDC数据集更接近真实临床场景(324例良性和883例恶性),模型验证条件更为严格。
关键技术方法概述
本研究的技术路线主要包括三个核心环节:多模态特征提取、智能特征筛选和集成机器学习分类。特征提取阶段融合了几何学特征、传统纹理特征和小波包变换纹理特征,特别是应用Daubechies小波族(db1、db2、db3)进行二级小波包分解,生成16个多尺度图像进行分析。特征筛选采用基于决策树的集成学习方法(BOCET和BACET),通过计算特征对节点纯度提升的贡献度进行排序。分类阶段采用多种集成学习策略,包括装袋(Bagging)、提升(Boosting)和随机子空间(Subspace)方法,通过组合多个弱分类器构建强分类器。
研究结论表明,基于CT影像组学和集成机器学习的方法能够有效区分肺结节的良恶性,其中BACET特征选择结合Ensemble Subspace KNN的分类策略表现出最优的综合性能。这套方法框架的价值在于:一是通过智能特征筛选解决了高维特征空间中的噪声冗余问题;二是通过集成学习策略提升了模型的泛化能力和稳定性;三是为临床提供了一种非侵入性、可重复的辅助诊断工具。
这项研究的现实意义在于,它为实现肺癌早期精准诊断提供了自动化解决方案,可显著降低放射科医生的主观判断差异和工作负荷。特别是在医疗资源匮乏地区,这种基于人工智能的辅助诊断系统有望弥补专业医师不足的短板。未来研究方向包括融合多模态影像特征、结合深度学习技术以及纳入临床病理数据构建多组学诊断模型,进一步提升肺癌早期诊断的准确性和可靠性。
研究的创新性主要体现在三个方面:首次系统比较了BOCET和BACET两种集成特征选择方法在肺结节影像组学分析中的效能;将小波包变换纹理特征与传统放射组学特征有机结合,增强了特征表征的深度和广度;通过大规模比较实验确定了针对不同临床需求(高敏感性vs高特异性)的最佳模型配置方案,为临床转化提供了灵活的选择空间。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号