基于超声影像组学的机器学习模型预测乳腺癌表皮生长因子受体表达状态

《Frontiers in Oncology》:Machine learning model for predicting epidermal growth factor receptor expression status in breast cancer using ultrasound radiomics

【字体: 时间:2025年10月18日 来源:Frontiers in Oncology 3.3

编辑推荐:

  本研究开发了一种基于超声影像组学(Radiomics)和机器学习(ML)的非侵入性方法,用于预测乳腺癌患者表皮生长因子受体(EGFR)表达状态。随机森林(RF)模型表现最优,训练集和测试集曲线下面积(AUC)分别达0.86和0.70。通过SHAP(Shapley Additive Explanations)方法进行模型解释,发现纹理特征(如original_ngtdm_Coarseness)是预测EGFR状态的关键。该研究为乳腺癌精准诊疗提供了可靠、可解释的无创评估工具。

  

引言

乳腺癌是女性最常见的恶性肿瘤之一,在中国每年新发病例约35.72万例,占全球发病总数的57.4%。尽管新辅助化疗、手术和辅助治疗等治疗手段不断进步,但优化诊断和治疗策略以改善患者预后仍是当务之急。表皮生长因子受体(EGFR)在细胞增殖和分化中起着关键作用,其过表达会显著加速肿瘤的转移和复发,导致患者总生存期和无病生存期显著降低。因此,EGFR是一个重要的临床治疗靶点。然而,目前检测乳腺癌EGFR过表达主要依赖侵入性方法,这会增加患者不适、操作风险以及总体检测成本和复杂性。开发一种在治疗前非侵入性、高效预测乳腺癌患者EGFR突变风险的方法迫在眉睫,此举可缩短诊断时间,减少对侵入性程序的依赖,为个性化治疗计划提供关键指导。
以往有研究通过经验丰富的超声医师解读图像,发现某些超声特征与EGFR表达相关,但常规超声技术难以区分基底样和正常样乳腺癌亚型。近年来,人工智能与临床医学的结合使得影像组学受到越来越多的关注。影像组学能够通过高通量图像分析自动提取影像特征、量化肿瘤异质性并表征生物学特性。机器学习(ML)使计算机能够利用算法和数学原理识别模式并获取知识,从而实现持续的性能改进。与传统统计方法相比,ML技术在挖掘数据隐藏信息方面表现出色,具有卓越的学习和泛化能力。然而,ML模型有限的可解释性是一个主要挑战,其决策背后的机制难以辨明,引发了对其结果可靠性的担忧。在医学诊断中,可解释性至关重要,因为透明的模型能增强决策结果的可靠性和安全性。目前,乳腺癌遗传亚型的预测主要集中在雌激素受体(ER)、人表皮生长因子受体2(HER2)和细胞增殖指数(Ki-67)等生物标志物上。虽然既往研究探索了其他癌症中预测EGFR表达的影像或基因组特征,但迄今为止,尚未有研究直接应用基于机器学习的超声影像组学方法来预测乳腺癌的EGFR表达状态,这凸显了本研究所针对的新颖研究空白。
本研究旨在开发和评估七种ML模型——逻辑回归(LR)、支持向量机(SVM)、K近邻(KNN)、随机森林(RF)、决策树(DT)、朴素贝叶斯(NB)和神经网络(NN)——以确定最佳风险预测模型。此外,采用SHAP(Shapley Additive Explanations)方法,通过全局和局部可解释性方法量化每个特征变量的贡献,从而阐明与预测乳腺癌患者EGFR表达状态相关的关键因素。本研究旨在为评估EGFR表达状态提供一种非侵入性且准确的工具,以帮助优化临床管理策略并提高患者生活质量。

材料与方法

患者与研究设计

本研究经福建医科大学附属第二医院伦理委员会批准(批准号:021),所有患者均签署书面知情同意书。研究对2019年1月至2024年8月期间在我院经手术病理诊断为乳腺癌并接受EGFR基因检测的女性患者进行了回顾性分析。纳入标准为:1)接受灰阶超声检查的患者;2)在基因检测前2周内接受超声检查的患者。排除标准如下:1)接受新辅助化疗的患者;2)超声检查前进行过活检的患者;3)超声图像不清晰的患者。共分析了符合条件患者的321幅灰阶超声图像。这些患者按7:3的比例随机分为训练集(n = 225)和测试集(n = 96)。为减少单次划分可能带来的选择偏倚,我们还进行了分层10折交叉验证,确保每折中保持EGFR+/–的比例。计算并报告了各折的平均AUC、准确率、精确率、召回率和F1分数。记录每位患者的临床信息,包括年龄、最大肿瘤直径、肿瘤形态、纵横比、微钙化存在情况、后方声衰减、血流信号和EGFR表达状态。为保持类别分布(EGFR–:EGFR+ ≈ 2:1),所有数据划分均采用分层抽样。

EGFR表达分析

EGFR表达通过免疫组织化学法在福尔马林固定、石蜡包埋的手术标本上进行评估。基于代表性肿瘤区域选择组织微阵列核心。使用EGFR pharmDx试剂盒评估EGFR蛋白表达,评分基于膜染色:0(无染色或<10%的细胞弱染色),1+(≥10%的细胞弱染色),2+(≥10%的细胞中度染色),3+(≥10%的细胞强染色)。若评分为1+、2+或3+,则归类为EGFR过表达(EGFR+);若评分为0,则归类为EGFR阴性(EGFR-)。这些免疫组化结果被用作模型训练的真实标签(EGFR+ vs. EGFR–)。

感兴趣区域分割与特征提取

所有患者术前均接受超声检查。使用灰阶超声图像进行影像组学特征提取。超声图像从图像存档与通信系统中检索,并以原始DICOM格式保存。一位具有10年经验的超声诊断医师(阅读者A),在不知晓临床信息、治疗方法、临床结局和病理数据的情况下,使用3D Slicer软件手动勾画肿瘤的感兴趣区域(ROI)。基于最大横截面平面识别肿瘤并进行ROI勾画和特征提取。初次勾画两周后,阅读者A和另一位具有15年经验的超声诊断医师(阅读者B)随机选择30幅图像进行ROI勾画,以评估超声影像组学特征提取的观察者间和观察者内可重复性。组内相关系数(ICC)大于0.75的影像组学特征被认为高度可靠,保留用于模型构建。所有图像在勾画前均去除标识信息,结果以ROI(nrrd)格式保存。ICC值低(<0.75)的高阶纹理特征因其对边界放置的敏感性而被排除,这表明其观察者间可重复性较差。

影像组学特征提取与选择

使用开源Python包Pyradiomics从每位患者超声图像的二维ROI中提取超声影像组学特征。影像组学特征从未经小波或LoG滤波的原始图像中提取。实施了多步骤特征选择流程以减少过拟合并提高模型泛化能力。训练集中的特征选择过程包括以下步骤:(i)保留观察者间和观察者内测试中ICC > 0.75的特征;(ii)对所有特征应用z-score标准化;(iii)执行单变量F检验(p < 0.05),以识别具有显著组间差异的特征作为初步降维步骤;(iv)应用带有10折内部交叉验证的L1正则化逻辑回归(LASSO)作为最终选择器。使用p < 0.05的显著性阈值,未进行Bonferroni校正,因为后续的LASSO步骤提供了进一步的正则化。
作为敏感性分析,我们进行了消融实验,移除步骤(iii)并直接应用LASSO;性能与完整流程相当,表明结论不依赖于单变量预过滤。
从每幅图像中共提取464个特征,包括形状特征、一阶统计量、灰度共生矩阵(GLCM)特征、灰度游程矩阵(GLRLM)特征、灰度区域大小矩阵(GLSZM)特征和邻域灰度色调差异矩阵(NGTDM)特征。

模型构建

使用七种常用的ML算法为训练集构建预测模型:LR、SVM、KNN、RF、DT、NB和NN。使用受试者工作特征(ROC)曲线和曲线下面积(AUC)评估模型性能。使用DeLong检验比较模型间的AUC值。此外,还计算了准确率、精确率、F1分数和召回率,以全面评估模型性能。使用Python 3.8.0版进行模型构建和评估。
为减轻潜在的选择偏倚并解决类别不平衡问题(EGFR?: EGFR+ ≈ 2:1),我们应用了分层10折交叉验证,确保每折中保持类别比例。我们还测试了软投票集成(RF + SVM + DT),其性能与最佳个体分类器相当。

使用SHAP进行模型解释

SHAP方法是一种基于博弈论的方法,通过量化各个特征对模型预测的贡献,为理解其影响提供了宝贵的见解。该方法提供了模型行为的全局和样本级洞察。在本研究中,我们应用SHAP方法来解释构建的ML模型,解决这些算法常见的“黑箱”挑战。所有分析均使用SHAP软件进行。生成了特征重要性图和摘要图,并选择代表性病例创建SHAP力图,从而增强我们对模型预测的理解。

统计分析

所有统计分析均使用R和Python进行。连续变量以均值加减标准差表示,分类变量以频数和百分比表示。使用t检验比较连续变量,使用卡方检验(或酌情使用Fisher精确检验)比较分类变量,以对比EGFR+组和对照组的临床特征。采用七种ML算法构建预测模型,并使用ROC曲线评估其性能。应用SHAP分析研究不同变量对风险预测的贡献。所有分析的统计学显著性定义为P < 0.05。

结果

临床病理学数据

研究共纳入321名乳腺癌患者,其中111名(34.6%)为EGFR+状态,其余210名(65.4%)为EGFR-状态。两组在年龄、最大肿瘤直径、不规则形状、纵横比、微钙化存在、后方声影或血流信号方面均无显著差异。基于t检验(连续变量)和卡方检验(分类变量)均未发现统计学显著差异。

特征选择

从每位患者的乳腺癌超声图像中共提取464个影像组学特征。其中,335个特征的观察者间和观察者内ICC值 > 0.75,表明一致性良好,适合进一步分析。一致性检验后,对这些335个特征进行t检验,保留了16个特征。最后,应用带有10折交叉验证的LASSO回归方法,筛选出8个特征用于构建影像组学模型。
LASSO回归与10折交叉验证用于从通过单变量检验的16个特征中选择信息量最大的特征。图3A展示了LASSO回归在不同log(λ)值下的二项偏差分布,最优值通过10折交叉验证选择。图3B显示了特征系数随λ变化的轮廓图。在最优λ下,选择了8个具有非零系数的特征用于模型构建。这种对边界放置的敏感性在体模和可重复性研究中也有报道,其中GLCM和GLRLM特征相较于一阶和形状特征显示出较低的稳健性。

模型性能

将选定的特征输入七个ML模型。使用训练集和测试集的ROC曲线评估这些模型的性能。在训练集中,LR模型的AUC为0.74。DeLong检验表明,RF模型的AUC最高,显著优于LR、SVM、DT、KNN、NB和NN模型(P < 0.001)。在测试集中,RF模型(AUC = 0.70)优于SVM模型(AUC = 0.60, P < 0.05)。使用雷达图可视化不同模型中选定特征的相对重要性。然而,RF模型与LR、KNN、DT、NB和NN模型之间未观察到显著差异(P > 0.05)。尽管在保留测试集上几个模型间的差异无统计学意义,但交叉验证显示RF在平均情况下提供了平衡的性能,其平均F1分数更高(0.54 ± 0.12),支持其作为最终模型的选择。除了7:3保留测试(RF AUC = 0.76;F1 = 0.58)外,分层10折交叉验证产生了一致的性能(AUC 0.82 ± 0.08;F1 0.54 ± 0.12),支持了模型的稳健性。
一项探索性的软投票集成实现了与RF相当的性能(10折 AUC 0.73 ± 0.10 vs. RF 0.82 ± 0.08;保留 AUC 均为 0.76),表明在该数据集上增量收益有限。图5中的雷达图说明了各分类器在不同性能指标(AUC、准确率、精确率、召回率、F1分数)上的表现,突出显示随机森林和XGBoost在训练集和测试集上均实现了最佳的整体泛化性能。

模型可解释性

我们计算了RF模型中每个超声影像组学特征的SHAP值。SHAP特征重要性散点图说明了每个特征SHAP值的分布,每个点代表一个样本的SHAP值,颜色表示特征值(例如,高或低)。如图所示,original_ngtdm_Coarseness和original_ngtdm_Strength表现出最宽的SHAP值分布,突显了它们对预测模型的重要影响。从蓝色到红色的渐变反映了特征值的大小,红色代表高值,蓝色代表低值,强调了这些特征对预测输出的非线性影响。SHAP特征重要性条形图根据特征的绝对平均SHAP值对它们进行排序,反映了它们在模型整体预测中的相对重要性。排名最高的特征original_ngtdm_Coarseness和original_ngtdm_Strength被确定为模型预测的主要驱动因素。在选定的特征中,纹理特征如original_ngtdm_Coarseness、original_ngtdm_Strength和wavelet.LL_glcm_ClusterProminence,以及2D形状特征如original_shape2D_PerimeterSurfaceRatio,在EGFR+和EGFR?肿瘤之间表现出显著差异。具体而言,EGFR+肿瘤在original_ngtdm_Coarseness(0.00105 vs. 0.00153, p = 0.0012)、original_ngtdm_Strength(5.06 vs. 7.55, p = 0.0015)和PerimeterSurfaceRatio(0.119 vs. 0.140, p = 0.0178)上表现出较低的值,表明其纹理更细腻、肿瘤结构更致密。其他特征,如wavelet.LL_glcm_ClusterProminence和wavelet.HL_gldm_DependenceVariance,也有显著贡献,而排名较低的特征贡献较小。图7展示了两名代表性患者:一名为EGFR阴性(患者A),一名为EGFR阳性(患者B)。每个病例均显示了原始灰阶超声图像、ROI分割和SHAP输出。SHAP可视化说明了在个体水平上,特定的影像组学特征如何影响模型的预测。值得注意的是,基于纹理的描述符,如original_ngtdm_Coarseness和original_ngtdm_Strength,表现出显著的贡献,反映了局部强度的粒度和均匀性。这些影像组学模式,包括较低的粗糙度和强度,表明EGFR+肿瘤具有更细腻、更均匀的纹理。这一观察结果与EGFR过表达肿瘤可能表现出更高细胞密度和更低结构异质性的假设一致,这也与既往研究相符。

讨论

在本研究中,我们开发并验证了一种利用超声影像组学特征预测乳腺癌EGFR表达状态的可解释ML模型。随机森林(RF)模型在七种机器学习模型中表现最佳,训练集AUC为0.86,保留测试集AUC为0.70。此外,10折分层交叉验证证实了RF模型的稳健性(AUC = 0.82 ± 0.08;F1分数 = 0.54 ± 0.12),支持其作为最终模型的选择。尽管测试集AUC适中(约0.76),但RF模型在召回率和F1分数上 consistently 优于其他模型,这些指标对于临床风险分层至关重要。这些结果与先前报道在其他癌症中预测EGFR的影像组学研究性能相似。
本研究的创新之处在于整合了超声影像组学和ML技术,开发出高性能的RF模型,该模型在多个评估指标上均表现出优越性能。该模型为推进临床诊断系统的开发提供了有价值的技术见解。先前的研究主要利用PET/CT或多参数MRI预测非小细胞肺癌中的EGFR,AUC范围在0.61至0.85之间。相比之下,我们的模型使用成本效益高、非侵入性的超声成像实现了相当或更优的性能(AUC = 0.76–0.82)。这种方法可能为更广泛的临床应用提供一种实用的替代方案,特别是在缺乏先进成像设备的场景中。
本研究将超声成像与ML相结合,验证了超声影像组学在量化肿瘤异质性方面的潜力。这些发现与先前成功利用影像组学分析预测乳腺癌ER、孕激素受体、HER2和Ki-67表达状态的研究结果一致。值得注意的是,通过预测EGFR表达状态,本研究将影像组学的应用扩展到了乳腺癌的分子分型。筛选出八个关键影像组学特征用于构建超声影像组学模型:两个NGTDM特征、一个灰度依赖矩阵特征、一个GLRLM特征、一个GLSZM特征、一个GLCM特征、一个形状特征和一个一阶统计特征。这些特征包括六个纹理特征、一个形状特征和一个一阶统计特征。六个纹理特征捕捉了肿瘤纹理的复杂性,这对于识别和分类肿瘤病灶内的空间异质性至关重要。这一发现强调了纹理特征在预测高EGFR表达中的重要性。此外,本研究开发的RF模型通过整合纹理、形状和一阶统计特征,提供了对肿瘤特征的全面分析,从而提高了肿瘤预测的准确性和可靠性。通过结合这些多样化的特征类型,RF模型更全面地捕捉了肿瘤图像信息,从而带来更精确的预测和诊断。这种集成分析为诊断和预测乳腺癌患者EGFR突变提供了新的视角和方法,展示了临床应用的潜力。
将SHAP值应用于RF模型,既增强了预测性能,也提高了可解释性。利用这些值,我们可以通过分析所有可能的特征组合来评估每个特征对模型输出的贡献,为每个特征提供一致且局部准确的属性值。对RF模型的SHAP分析显示,original_ngtdm_Coarseness和original_ngtdm_Strength对EGFR表达状态的预测影响最为显著。这些特征量化了肿瘤纹理的细微变化,这与影像组学领域纹理特征在肿瘤分类和预测中的公认重要性相符。使用SHAP方法,我们量化了特征的重要性,并揭示了它们对模型决策过程的非线性影响,从而增强了其透明度和临床可信度。将这些见解应用于RF模型,使用户能够更好地理解其预测及其决策背后的原理。结果中呈现的风险因素的详细见解和解释为临床医生提供了更知情的视角,促进了循证决策,而非盲目依赖算法输出。此外,个体化的解释有助于临床医生理解模型为何对高风险病例提出特定决策,支持个性化的患者管理。
有几个局限性值得考虑。首先,这是一项单中心、回顾性研究,样本量适中且存在类别不平衡(EGFR–:EGFR+ ≈ 2:1),这可能限制其普适性。尽管我们应用了分层抽样、类别加权和10折交叉验证以最小化偏倚,但仍需进行多机构的外部验证。其次,手动分割ROI引入了主观性,可能影响可重复性;未来的工作应探索基于深度学习的自动分割。最后,尽管探索了集成学习,但其性能并未超越RF模型,这可能是由于数据规模和信噪比特性所致。

结论

在本研究中,我们开发了一种基于超声影像组学特征的可解释ML模型,用于预测乳腺癌的EGFR表达状态。该模型表现出优异的预测性能,并通过SHAP方法得到进一步增强。SHAP值提高了全局和局部可解释性,为精确、非侵入性诊断提供了可靠支持。超声影像组学为侵入性检测方法提供了一种更具成本效益和非侵入性的替代方案,使其特别适合无法接受此类 procedures 的患者。这种方法在乳腺癌诊断和管理中显示出广泛的临床应用潜力。在排名靠前的SHAP特征中,original_ngtdm_Coarseness、original_ngtdm_Strength和wavelet.LL_glcm_ClusterProminence不仅在EGFR+和EGFR?肿瘤间表现出显著的组间差异,而且反映了纹理的致密性和异质性,提示与EGFR过表达的潜在生物学机制存在强烈关联。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号