多模态超声影像融合机器学习预测乳腺癌管腔与非管腔亚型的研究
【字体:
大
中
小
】
时间:2025年10月09日
来源:Frontiers in Oncology 3.3
编辑推荐:
本研究创新性地整合二维超声(US)、彩色多普勒血流成像(CDFI)、应变弹性成像(SE)及自动乳腺全容积成像(ABVS)等多模态超声影像,结合机器学习算法(如SVM、LR),构建了可术前区分乳腺癌管腔与非管腔亚型的预测模型。四模态模型表现最优(AUC: 0.947),显著优于单模态(ΔAUC +0.189),为个体化治疗决策提供了非侵入性、高精度的影像学生物标志物解决方案。
乳腺癌是全球女性癌症相关死亡的主要原因,其分子亚型对治疗反应和预后具有显著影响。管腔亚型以高水平的雌激素受体(ER)和孕激素受体(PR)为特征,通常对内分泌治疗反应良好;而非管腔亚型,包括人表皮生长因子受体2(HER2)富集型和三阴性乳腺癌(TNBC),则表现出侵袭性强、对激素治疗反应差及预后较差的特点。管腔癌通常接受内分泌治疗±手术,而非管腔亚型则需要新辅助化疗——这一决策必须在术前做出。在资源有限的环境中,患者通常需要等待超过2周才能获得免疫组化(IHC)结果,从而延误了时间关键性治疗。因此,精确且及时的分子亚型分类对于优化个体化治疗策略至关重要。
虽然磁共振成像(MRI)、超声和 mammography 等成像技术广泛用于乳腺癌检测,但核心针活检(CNB)结合IHC仍是分子分类的诊断金标准。然而,CNB具有侵入性、成本高、耗时长,且可能无法捕捉肿瘤异质性,从而导致诊断不准确。影像组学作为一种新兴技术,能够提供超越人类视觉解释的定量肿瘤评估,为这些挑战提供了有前景的解决方案。
基于MRI的影像组学已有效评估了恶性肿瘤和分子亚型。超声无电离辐射,特别适合年轻和孕妇,并且在检测导管内和结节性病变方面比 mammography 具有更高的敏感性。在乳房较小、较致密的人群中,如年轻女性和中国女性,超声是乳房病变筛查和术前评估的首选。然而,灰度超声对放射科医生解读的依赖性引入了变异性和主观性,促使基于影像组学的方法的发展,但这些方法通常局限于二维(2D)超声的单一模态。最近的深度学习进展(如ResNet-101)在单模态超声分类中显示出潜力,但仍受限于单模态数据。多模态融合可能解决临床实践中的关键诊断差距,特别是对于具有模糊成像表型的病变。
超声技术的进步引入了如CDFI、SE和ABVS等模态,这些模态在乳房病变评估中提供了独特优势。CDFI可以量化肿瘤的血管分布,SE能够测量组织硬度。现有研究表明,弹性成像和CDFI均与管腔A型癌症亚型相关。ABVS尤其能够实现冠状成像,增强病变和邻近组织的可视化,有助于详细表征和改进组织结构和空间关系的评估。此外,ABVS产生标准化图像,最小化变异性,使其成为影像组学分析的理想选择,其中一致性和可重复性是提取有意义特征的关键。
ABVS冠状结合SE已证明在区分乳房病变方面有效,但利用ABVS进行分子亚型分类的影像组学研究仍然稀缺。手动特征选择方法常用于医疗数据分析,但不足以处理日益复杂的多模态成像数据。不稳定的选择过程可能导致选定特征子集的显著变异性,损害模型可靠性。
这项回顾性研究纳入了2020年1月至2024年6月期间在我院通过CNB样本或手术标本的组织病理学评估诊断为乳腺癌的247例病例。获得了医院审查委员会的伦理批准,并放弃了知情同意。患者信息被匿名化以确保隐私。
纳入标准包括:完整且高质量的超声图像,具有适合肿瘤分割的肿块样病变;以及孤立性恶性肿瘤。排除标准包括:超声图像质量差;多个病变;不完整的临床或超声数据;缺乏穿刺或手术IHC结果;肿瘤直径超过50毫米(大肿瘤经常超出标准超声探头视野,导致不连续的ROI分割,损害影像组学特征稳定性);以及在乳房超声检查前接受过局部或全身治疗(如化疗、放疗、消融或切除)。在247例病例中,192例患者符合标准,包括140例导管癌和52例非导管乳腺癌。患者按7:3的比例随机分为测试集(134例)和验证集(58例)。
收集的训练和验证集的临床数据包括年龄、超声报告的肿瘤大小、微钙化、汇聚征、乳房成像报告和数据系统(BI-RADS)分类、病理学、应变弹性评分、ER/PR/HER2状态、Ki-67和分子亚型。根据IHC结果的激素受体(HR)状态将肿瘤分类为管腔型或非管腔型。ER或PR染色阳性的细胞≥1%的肿瘤被归类为管腔型,而HR阴性肿瘤被分类为非管腔型。图像相应地标记。
乳房超声检查由两名经验丰富的医生进行,每位在乳房成像方面拥有超过5年的专业知识。使用西门子Acuson Oxana 2 ABVS(Siemens Healthineers, Erlangen, Germany)配备9L4和14L5B线阵探头进行径向、横向和纵向扫描。评估最大的超声区域,并记录超声特征,如BI-RADS分类、大小、位置、形状、边缘、内部回声、微钙化、应变弹性评分、汇聚征、血管分布和腋窝淋巴结 involvement。所有模态在2小时内使用同一扫描仪(Siemens Acuson Oxana 2)连续采集。ROI从同步的ABVS/2D-US图像中分割。
影像组学工作流程包括分割、特征提取和选择、图像预处理、特征分析和模型构建。图像预处理遵循成像生物标志物标准化倡议(IBSI)指南,包括体素重采样进行空间归一化、强度离散化和特征值的z-score归一化。目标区域使用开源软件3D Slicer(版本5.6.1)描绘,并使用SlicerRadiomics扩展提取特征——如一阶、形态学、灰度直方图和小波变换。
随机选择40张超声图像(20例管腔型和20例非管腔型病例),由两名医生独立描绘ROI以进行组间一致性测试。两周后,医生1重复ROI描绘以进行组内一致性测试。组间和组内测试的组内相关系数(ICCs)超过0.75,确认了高特征一致性。随后,医生1分割剩余图像,仅保留ICC高于0.75的特征进行进一步分析。
当患者数量远小于提取的特征数量时,数据在高维空间中变得稀疏,削弱了机器学习模型的准确性和泛化能力。为了减少冗余、排除不相关特征并最小化过拟合风险,采用了Li等人提出的方法,结合了六种无监督特征选择(FS)算法——Lap_score、SPEC、MCFS、NDFS、UDFS和person score——以及四种有监督FS算法——F score、Tscore、ReliefF和Fish_score——共产生24种FS组合。有监督FS依赖于数据标签(如分类任务中的类别和回归任务中的连续值),目标是选择使模型在预测标签方面更有效的特征。无监督FS不依赖于标签,目标是优化特征集的内部结构(如减少冗余、保留关键模式),常用于后续无监督任务(如聚类、降维)或作为有监督任务的预处理步骤。评估后,最终选择AUC(曲线下面积)*稳定性大于0.45的数据集进行后续分析。特征选择独立进行于每个数据集分组,以消除潜在的跨组干扰并保持方法学完整性。
通过通道连接进行特征融合:Ffused = [FUS | FCDFI | FSE | FABVS],其中FUS ∈ Rn×15, FCDFI ∈ Rn×15, FSE ∈ Rn×15, FABVS ∈ Rn×15 表示模态特定特征矩阵(如超声、彩色多普勒、剪切波弹性成像等),| 表示列向连接(沿特征通道维度堆叠矩阵),n是样本大小(数据实例数量)。这促进了具有增加复杂性的多个数据集的生成。这些包括由2D US图像组成的单模态数据集、整合2D US与CDFI(US+CDFI)的双模态数据集、将SE与2D US和CDFI(US+CDFI+SE)结合的三模态数据集,以及结合所有模态(包括ABVS冠状成像(US+CDFI+SE+ABVS)的四模态数据集。
使用六种分类器——LR、AdaBoost、LDA、岭回归、SVM和RF——进行预测。合成少数过采样技术(SMOTE)过采样平衡了数据集,并使用10折交叉验证与网格搜索进行超参数优化(例如SVM(核: linear/RBF; 惩罚C: [0.1, 1, 10]; γ: [0.001, 0.01, 0.1]; 最优: RBF核, C = 1, γ=0.01))。这种方法减少了由不均匀训练数据划分引起的评估偏差,提供了更稳定的性能评估。Bootstrap方法用于计算AUC的置信区间,并应用Dunn-Sidak校正来控制多重比较误差。所有工作流程在Python(版本3.8)中实现。校准曲线评估了预测与结果之间的一致性,而决策曲线分析(DCA)评估了临床效用。校准曲线通过分箱预测概率(10分位数箱)并绘制平均预测与观察事件率生成,完美校准由45°线表示。
使用博弈论原理,SHAP(Shapley Additive Explanations)量化了每个特征对模型输出的贡献。这种可解释性框架可视化特征重要性,突出个体变量对预测的影响。应用SHAP值评估每个特征对最优模型的贡献及其在特定场景中对决策的影响。
连续变量使用Mann-Whitney U或Student’s t-test分析,取决于正态性假设,而Pearson卡方检验评估分类差异。模型性能指标包括AUC、敏感性、特异性、阳性和阴性预测值以及F1-score。统计显著性设定为p < 0.05。
训练和验证队列中患者的特征总结显示,两组在年龄、肿瘤大小、微钙化、超声汇聚征、BI-RADS分类、病理肿瘤类型、SE评分或分子亚型方面无统计学显著差异(p > 0.05)。
每位患者从四种成像模态(US、CDFI、SE和ABVS冠状成像)的ROI中统一提取了863个特征。这些特征包括影像组学指标,如灰度共生矩阵(GLCM)和灰度依赖矩阵(GLDM)。在特征选择过程中,应用了24种不同的方法独立筛选每个模态内的特征, resulting in a 192 x 15 unimodal dataset for each modality。最优特征选择组合包括Fish score和UDFS、T-score和UDFS、F score和NDFS以及ReliefF和NDFS。每个模态的数据然后在特征级别融合,生成对应维度为192 x 15(单模态)、192 x 30(双模型)、192 x 45(三模态)和192 x 60(四模态)的多模态数据集。
四模态模型在测试集中表现出显著优于单模态模型的性能,跨越所有机器学习算法。SVM四模态模型实现了最高性能,AUC为0.947(95% CI: [0.884, 0.986]),高于单模态模型的AUC 0.758(95% CI: [0.637, 0.853])。其他算法,包括AdaBoost、LR、RF和岭回归,在四模态配置中也实现了比单模态更高的AUC值。三模态SVM模型的AUC为0.865(95% CI: [0.778, 0.938]),高于双模态(AUC 0.741, 95% CI: [0.648, 0.854])和单模态模型(AUC 0.758, 95% CI: [0.637, 0.853])。三模态模型的特异性和敏感性高于双模态和单模态模型。然而,这两项指标仍低于四模态模型,表明诊断性能改进。
四模态模型在所有机器学习算法中表现出优越的预测性能。SVM四模态模型的AUC(0.947 (95% CI: [0.884, 0.986]))高于任何其他配置。LR四模态模型实现了最高敏感性(0.884, 95% CI: [0.778, 0.976])、特异性(0.927, 95% CI: [0.841, 1.000])和F1-score(0.905, 95% CI: [0.829, 0.965])。校准曲线和DCA确认了四模态模型的准确性和临床适用性。总体而言,这些发现表明多模态融合显著增强了每个模型的预测能力。
SVM和LR四模态模型基于全面评估表现出优越性能。SHAP分析量化了每个特征的贡献,平均绝对SHAP值作为主要指标。可视化每个特征的累积影响,其中较高的特征值(红色)表示对预测的较强正面影响。在SVM模型中,特征wavelet-LLH-glrlm-LongRunLowGrayLevelEmphasis3和wavelet-LLH-glrlm-LongRunEmphasis3对预测的影响大于其他特征。相比之下,在LR模型中,wavelet-HLL-gldm-DependenceNonUniformityNormalized4是最重要的预测特征,其次是wavelet-LLH-glrlm-RunVariance3。总体而言,属于GLDM(灰度级别依赖矩阵)、GLRLM(灰度级别运行长度矩阵)、GLSZM(灰度级别大小区域矩阵)、一阶统计特征和小波特征的特征对两个模型的预测贡献最大。
本研究成功开发了一种多模态机器学习模型,用于术前分类管腔和非管腔乳腺癌亚型。从2D-US到US+CDFI+SE+ABVS的逐步整合产生了显著的AUC增益(单模态:0.758 → 四模态:0.947, Δ+0.189)。这表明结合结构和功能数据优于单模态评估。这些发现强调了多模态数据融合在增强模型泛化能力和准确性方面的关键作用。鉴于肿瘤异质性和活检限制带来的诊断挑战,这种方法为早期乳腺癌的个体化治疗策略提供了一个有前景的补充工具。
由于非管腔乳腺癌通常需要新辅助治疗,开发的模型为早期乳腺癌患者的个体化治疗策略提供了一个有前景的补充工具。肿瘤异质性可能导致术前活检的IHC结果不准确,突出了基于成像的分子亚型分类方法的价值。影像组学技术有效解决了活检限制固有的诊断差距,支持其融入临床工作流程。
先前的研究已经证实了 mammographic 影像组学和基于MRI的分析在预测分子亚型方面的潜力。早期研究报道AUC值高达0.836,而最近的研究进展显示,mammographic 影像组学模型的AUC值为0.855,多参数MRI(mpMRI)基于特征融合模型的AUC超过0.81。这些发现表明,先进成像技术作为准确分类乳腺癌分子亚型的有效补充工具具有巨大潜力,从而增强了现有诊断方法。相比之下,ABVS通过将标准超声和ABVS成像结合到一次检查中,提供了独特优势,从而提高了临床效率、诊断准确性和患者管理。
尽管其有用性,ABVS冠状成像与乳腺癌分子亚型之间的相关性仍未充分探索。本研究通过将ABVS与其他成像模态整合来解决这一差距,证明了其在多模态分类中的有效性。
我们的研究表明,LR和SVM模型在区分管腔和非管腔乳腺癌方面最有效,与先前研究的发现一致。例如,一项利用2D超声分类PR阳性和PR阴性乳腺癌的研究实现了LR分类器的AUC为0.879,超过了我们的单模态模型性能。这种差异可能归因于先前研究中的较大数据集大小,这可能增强了模型在区分不同分子亚型方面的泛化能力。我们的多模态方法在我们的队列中表现出改进的性能,特别是SVM模型。SVM通过其核方法处理复杂非线性关系的能力实现了更准确的分类,强调了其对多模态数据集的适用性。
正如Jiangfeng Wu等人所指出的,纹理、小波和一阶特征对于区分管腔和非管腔亚型至关重要,其中特征如wavelet-HLL-gldm-DependenceNonUniformityNormalized、original-glrlm-HighGrayLevelRunEmphasis和wavelet-LHL-glszm-SizeZoneNonUniformity显示出特别的重要性。然而,基于形状的特征由于其较低的诊断相关性而被省略。我们的发现与这些观察密切一致,并表明优化这些特征的提取和应用可以进一步提高诊断准确性。
多模态模型对HER2富集亚型(测试集中n=14)表现出强性能,但TNBC预测(n=5)由于样本有限需要验证。在推广TNBC结果时应谨慎。SVM和LR分类器在我们的多模态模型中表现出 outstanding 性能,特别是在纳入ABVS和SE图像时。在特征选择过程中,十个最重要特征中的大多数来源于ABVS和SE图像,而较少关键特征来源于CDFI图像。这些结果突出了ABVS和SE成像在准确分类乳腺癌分子亚型中的关键作用,强调其作为多模态影像组学工作流程 essential 组件的整合。
随机森林(RF)模型在单模态训练集上的完美AUC为1.0强烈表明过拟合。此外,第二模态的整合并未一致产生改进;相反,双模态配置(US+CDFI)在某些分类器(如SVM: 0.741 vs. 0.758)中表现出略低于单模态US的AUC。我们将此归因于血管性(CDFI)和实质纹理(US)之间的特征冗余,这引入了噪声而没有增加判别力。然而,纳入SE和ABVS冠状成像通过添加正交生物信息——组织硬度和3D结构扭曲——解决了这一限制,在四模态模型中产生了显著改进。过拟合通常发生在模型在有限特征集上训练时,导致训练数据中的噪声拟合和未见测试数据上的性能受损。在本研究中,多模态模型通过整合多种成像模态利用了更多样化和全面的特征集,从而提高了鲁棒性并稳定了AUC等指标。这些发现强调了多模态融合在减轻过拟合和增强复杂诊断任务的机器学习模型泛化能力方面的价值。
该模型的临床价值可能超越诊断准确性,扩展到优化诊断和治疗路径。例如,在具有低风险管腔A型配置文件高置信预测的患者(例如,预测概率 >0.90)中,该模型可能支持直接进行手术的讨论,最终诊断和完整分子亚型(包括Ki-67和HER2状态)在术后手术标本上确认。然而,必须强调,这种方法完全不适合临床或成像特征提示更具侵袭性表型的病例,或 specifically 适用于可能接受新辅助治疗的患者(例如,那些管腔B2/HER2+或三阴性亚型)。在这些场景中,核心针活检仍然是获取必要生物标志物信息(最关键的是,HER2状态)以指导新辅助治疗决策的绝对标准。对于禁忌活检的患者(例如,凝血障碍),该模型可以提供非侵入性风险评估以辅助临床规划。总体而言,该模型旨在作为补充决策支持工具,而不是替代标准病理诊断。
未来的研究应优先优化特征提取和选择方法,以进一步提高多模态模型的诊断精度。评估不同模态组合对模型性能的影响并比较其各自的AUC值可以为优化临床工作流程、减少检查负担和提高诊断效率的策略提供信息。这些进步将支持多模态融合的功效,并为临床医生在复杂肿瘤病例中提供简化和可靠的决策工具。
本研究开发了一种多模态机器学习模型,用于术前区分管腔和非管腔乳腺癌亚型。通过纳入ABVS和SE,该模型表现出增强的泛化能力和预测准确性,突出了多模态超声成像的临床价值。然而,在临床部署之前,必须在多样化人群中进行外部验证。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号