基于放射组学与机器学习的乳腺X线摄影预测模型开发及其在乳腺癌精准诊断中的应用价值

【字体: 时间:2025年09月14日 来源:Egyptian Journal of Radiology and Nuclear Medicine 0.5

编辑推荐:

  为解决乳腺X线摄影中良恶性病变鉴别诊断的难题,研究人员开展了一项基于放射组学特征与机器学习算法的多模型对比研究。通过整合十种特征选择方法与十种分类算法,研究发现PCA结合Extra Trees分类器的组合达到最高诊断效能(准确率0.960,AUC=0.997),显著提升乳腺癌早期诊断的精准度,为临床无创诊断提供新范式。

  

在全球范围内,乳腺癌不仅是女性中最常见的恶性肿瘤,更是导致癌症相关死亡的第二大原因。据统计,2020年新增病例超过226万,其中约17.3%的患者最终死于该疾病。特别是在伊朗,2019年新发病例数占所有癌症的28.1%,而根据国际癌症研究机构(IARC)的预测,到2040年,全球乳腺癌新发病例数将比2018年增长46.5%。面对这一严峻的公共卫生挑战,早期 detection(检测)成为降低死亡率、提高生存率的关键——若在肿瘤较小时期及时发现,患者的五年生存率可超过90%。

目前,乳腺X线摄影(Mammography)被公认为最有效的乳腺癌筛查工具,它能够比临床症状早两年以上发现乳腺组织异常,在过去三十年中广泛应用,使死亡率降低了30-70%。临床上,放射科医生根据乳腺影像报告和数据系统(Breast Imaging-Reporting and Data System, BI-RADS)对影像结果进行分类,从BI-RADS 0(未确定,需进一步影像检查)到BI-RADS 6(确诊恶性)。然而,这一方法仍面临诸多挑战:高密度乳腺组织中正常组织与病变的X射线衰减相似,导致影像敏感性下降(敏感度仅30-48%);组织重叠易造成假阳性或假阴性结果;且高度依赖放射科医生的经验,诊断一致性难以保证。

近年来,放射组学(Radiomics)作为一种非侵入性方法,通过将医学图像转化为可量化的高维特征,为肿瘤表型分析提供了新途径。它能够提取人眼难以辨识的纹理、形状和强度特征,从而辅助鉴别诊断、预测预后和评估治疗反应。结合机器学习(Machine Learning, ML)方法,放射组学特征可以构建预测模型,自动区分类别,减少主观偏差。尽管已有一些研究尝试将机器学习应用于乳腺癌诊断,但在特征选择与分类算法的组合优化、多类别(正常、良性、恶性)分类以及模型稳定性评估方面仍存在明显不足。

为此,Aida Karami等研究人员在《Egyptian Journal of Radiology and Nuclear Medicine》上发表了一项研究,旨在系统评估不同特征选择方法与机器学习分类器组合在乳腺X线摄影影像中对良恶性病变的分类效能,以开发一个高精度、高稳定性的预测模型。

该研究团队回顾性收集了来自乳腺癌筛查中心的301例女性患者的1204张乳腺X线摄影影像(包括头尾位CC和内外斜位MLO视图),经严格排除标准(如既往治疗史、病灶不完整、影像伪影等)后,最终纳入218例患者(平均年龄48.42岁)的798张影像,其中正常605例、良性74例、恶性119例。所有影像由经验丰富的放射科医生依据BI-RADS第五版进行标注(正常:BI-RADS 1;良性:BI-RADS 2-3;恶性:BI-RADS 4-6)。

研究采用3D Slicer软件(5.4.0版)及其Radiomics插件手动勾画感兴趣区域(ROI),并提取了107个放射组学特征,涵盖形状特征(14个)、强度特征(18个)、灰度共生矩阵GLCM(24个)、灰度依赖矩阵GLDM(14个)、灰度游程矩阵GLRLM(16个)、灰度区域大小矩阵GLSZM(16个)和邻域灰度差矩阵NGTDM(5个)。为应对数据不平衡问题,团队应用SMOTE技术对少数类(良性和恶性)进行过采样,最终数据集扩展至1332个样本(正常605、恶性357、良性370)。数据预处理还包括缺失值处理、标签编码(正常-0、恶性-1、良性-2)以及Min-Max标准化。

在特征选择阶段,研究评估了十种常用方法:过滤式(Pearson Correlation、Variance Threshold、Mutual Information、ANOVA)、嵌入式(Logistic Regression、LASSO、Random Forest、Extra Trees Classifier)、包裹式(Recursive Feature Elimination)以及降维方法(Principal Component Analysis, PCA),最终筛选特征数范围在29-96之间。分类阶段则采用十种机器学习算法(Adaptive Boosting、Bagging、Gaussian Na?ve Bayes、Decision Tree、Gradient Boosting Decision Tree、K-Nearest Neighbors、Random Forest、Support Vector Machine、Logistic Regression、Extra Trees),并通过十折交叉验证评估模型稳定性。模型性能以准确率、AUC(受试者工作特征曲线下面积)、敏感度(Recall)和特异度为指标。

研究结果显示,PCA作为特征选择方法表现最优,而Extra Trees(ET)、Random Forest(RF)和Gradient Boosting Decision Tree(GBDT)分类器诊断效能最高。具体而言,PCA结合ET分类器达到最高准确率(0.960)和AUC(0.997),PCA+RF组合准确率为0.953、AUC为0.993,PCA+GBDT则为0.938和0.988。敏感度方面,PCA+GBDT模型最高(0.963),其次为Pearson Correlation+高斯朴素贝叶斯(0.957);特异度则以PCA+ET(0.990)和PCA+RF(0.977)为优。整体上,集成学习方法(如ET、RF、GBDT)显著优于概率模型(如朴素贝叶斯),凸显其处理高维、复杂放射组学特征的优势。

通过热图分析(图6、7、9、10)可见,不同特征选择与分类器组合的性能存在较大差异,但PCA与树型集成模型的组合 consistently(一致地)呈现高值。此外,特征数量与模型精度并非单纯正相关,例如PCA虽仅选用60个特征,却取得最佳结果,说明特征质量与独立性更为关键。

研究人员在讨论中指出,本研究通过多中心数据采集(不同成像协议与患者群体)增强了模型泛化能力,而SMOTE技术有效缓解了类别不平衡问题。PCA的成功源于其降噪、去相关及防止过拟合的能力,而ET、RF等集成方法则通过随机化与多树聚合提升了鲁棒性。与既往研究对比,本模型在AUC、特异度等指标上均有显著提升(如Wang等研究AUC 0.915,本研究达0.997),且首次系统评估了十种特征选择与十种分类器的百种组合,为临床提供了更全面的模型选择依据。

然而,研究仍存在一定局限性:样本量较小(218例),可能影响模型训练效果;未纳入超声、MRI等多模态影像或患者 demographic(人口统计学)、实验室数据;未进行外部验证。未来工作可扩展数据集、整合多源信息,并验证模型在超声、MRI等其他影像模态上的适用性。

综上所述,该研究成功开发了一个基于放射组学和机器学习的乳腺X线摄影预测模型,通过系统比较百种算法组合,明确了PCA与Extra Trees分类器的最优性能,为实现乳腺癌无创、精准诊断提供了重要技术支撑。其方法学框架与结果对推动放射组学在临床中的应用具有深远意义,不仅有望辅助放射科医生提升诊断一致性,还可减少不必要的活检,优化患者治疗路径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号