综述：多模态医学影像人工智能在乳腺癌诊断中的应用综述

《Intelligent Oncology》：Multimodal medical imaging AI for breast cancer diagnosis: A comprehensive review

【字体：大中小】 时间：2026年01月02日 来源：Intelligent Oncology

编辑推荐：

　　本综述系统阐述了多模态医学影像AI在乳腺癌诊疗中的前沿进展，涵盖超声、 mammography (MG)、磁共振成像(MRI)等多种影像模态与临床数据的融合策略（如早期、中期、晚期融合）。文章重点分析了不同数据组合（如B-mode/CDFI/弹性成像）及AI模型（CNN、ResNet、Transformer等）在乳腺癌诊断、分型、疗效预测等临床任务中的应用效能（AUC普遍达85%-98%），为开发可靠、临床相关的多模态AI系统提供了重要指导。

多模态医学影像人工智能在乳腺癌诊断中的应用综述

引言

乳腺癌是全球女性癌症相关死亡的主要原因之一，早期检测和准确诊断对于改善治疗结果和生存率至关重要。传统的筛查方法，如临床乳腺检查、 mammography (MG)、超声和磁共振成像(MRI)被广泛用于检测异常。然而，每种成像模态都有其局限性： mammography 在致密乳腺组织中的敏感性降低，超声高度依赖操作者，而MRI则具有可变的特异性且成本高昂、可及性差。这些局限性常常需要结合多种成像技术以获得全面评估。

早期的人工智能系统通常依赖于单一数据源，但越来越多的研究表明，整合多模态数据可以提升模型性能。这反映了更广泛AI领域的发展趋势，从大型语言模型转向大型视觉语言模型，催生了更强大、更通用的系统。在医学领域，最近的多模态基础模型，如BioGPT、MedCLIP、LLaVa-Med和PathCLIP，已经展示了整合成像和文本数据以完成报告生成、视觉问答和图文对齐等任务的能力。在乳腺癌领域，结合成像模态、临床数据、基因组谱和临床报告可以提供对患者状况更全面的理解，支持改进的临床决策和患者护理。

数据融合策略

多模态AI系统结合异构数据源以创建更全面的模型。集成策略通常分为早期融合、中期融合和晚期融合，每种策略根据数据对齐、临床复杂性和模型设计提供不同的优势。

早期融合在原始数据或低级特征阶段整合模态，例如结合空间对齐的输入，如堆叠的MRI序列或不同的成像视角。这种方法允许模型在单次前向传递中直接从低级信号学习跨模态模式，但需要精确对齐并且对缺失或噪声输入敏感。

中期融合是医学领域的主导方法。每个模态通过特征提取器或工程化特征独立处理，然后将得到的表征合并。这种方法支持异构数据类型，并允许通过注意力或学习到的投影层进行跨模态交互。重要的是，结合来自不同成像模态的影像组学特征被认为是中期融合，因为融合发生在模态特定的特征提取之后。

晚期融合结合的是决策而非特征，使用平均或加权投票等方法整合来自独立模型的输出。这种策略提高了可解释性和鲁棒性，并且允许独立模型贡献，而不需要完整的输入数据集。

超声

超声是乳腺癌诊断和管理中的关键成像模态，尤其因其实时成像能力、无电离辐射以及在 mammography 可能受限的致密乳腺组织中的有效性而至关重要。乳腺超声依赖于一系列提供互补的解剖、血管和机械信息的成像模态，极大地提高了诊断准确性。

B-mode是产生实时灰度图像的基本技术。彩色多普勒血流成像增加了一个功能层，通过使用颜色叠加显示病灶内部和周围的血液流动。对比增强超声通过注射微泡造影剂提供更详细的血管评估，能够实时可视化微循环和灌注模式。弹性成像技术通过评估组织硬度提供机械洞察，恶性病变通常硬度升高。剪切波弹性成像定量测量剪切波在组织中传播的速度，生成彩色编码的硬度图。应变弹性成像是一种定性方法，评估组织在响应压缩时的变形程度。

超声成像视角对于全面的乳腺评估至关重要，因为它们提供空间定向并改善病灶表征。径向平面、反径向平面、矢状面、横断面和冠状面是常用的视角，通过融合互补的模态和成像视角，多模态超声为准确预测提供了更稳健的基础。

超声模态融合

大量研究集中在结合多种超声模态，最常见的是B-mode、CDFI和弹性成像，通过捕捉肿瘤特征的互补方面来增强分类性能。一些研究进一步扩展了这一点，通过使用共享的ResNet主干网络融合B-mode、CDFI、SWE和SE，同时采用强化学习来学习最终分类决策的最佳组合权重。在此基础上，AW3M框架通过解决缺失模态的问题，增强了在现实世界约束下的性能，引入了即使在只有预期输入数据子集可用时也能保持有效性的机制。

虽然一些工作融合了完整的模态集，但其他工作则根据临床背景或数据可用性选择性地使用子集。最后，模态融合已扩展到包括动态成像。将静态B-mode图像与CEUS视频相结合，将灌注动力学纳入分类任务。这指向了对结合空间和时间模态日益增长的兴趣，以及开发能够适应成像协议、视角可用性和模态完整性的可变性的架构。

最近，对比学习被用来确保跨模态的语义对齐。引入了一种训练目标，鼓励来自不同超声模态（B-mode、CDFI和弹性成像）的表征在共享嵌入空间中收敛，提高了在输入模态缺失或噪声情况下的鲁棒性和跨模态一致性。类似地，利用这种三模态超声信息，将其与 mammography 和临床元数据相结合用于诊断，展示了跨成像类型和数据源的多模态融合的好处。

超声多视角融合

融合特定的超声成像视角也可以提高分类性能。一些研究在数据级连接径向和反径向视图，以促进使用DenseNet进行迁移学习以用于诊断。其他工作采用不同的视角组合，例如横断面和冠状面，以及纵切面、横断面和冠状面。一些研究利用横断面和纵切面视角跨越B-mode、CDFI和弹性成像进行乳腺影像报告和数据系统分类，而另一些研究则增强了灵活性，使其仅在纵切面或横断面视角上有效运行。另一方面，一些研究通过多分辨率裁剪肿瘤区域来模拟空间多样性，将每个分辨率-尺度对视为独特的视角以增强表征丰富性。

总体而言，采用中期或早期-中期融合策略结合传统CNN或ResNet架构的研究实现了高AUC值（大于95%）。相比之下，两个使用具有类似融合策略的基于Transformer模型的研究之一报告了较低的AUC（85%）。值得注意的是，这项研究是第一个融合来自两个不同模态（超声图像和放射学文本报告）的输入，其有限的数据集大小可能导致了性能下降。

超声与影像组学特征整合

影像组学分析因其能够定量表征超出人眼可感知范围的病灶形态、纹理和异质性而在乳腺超声研究中受到关注。通过从医学图像中提取高维、手工制作的特征，影像组学能够捕获与肿瘤生物学相关的细微图像模式。一些研究将这种方法与CEUS结合应用，CEUS提供了与结构成像互补的动态血管信息。这些研究从B-mode、SWE和CEUS图像中提取影像组学特征，使用支持向量机结合遗传算法进行优化以进行二元分类。其他研究计算B-mode和CEUS图像中五个解剖学定义感兴趣区域的影像组学特征。这些特征通过神经网络进行细化，然后使用支持向量机进行分类。还有研究检查了从B-mode、SE、CDFI和CEUS衍生的影像组学特征与乳腺癌分子亚型之间的关联。他们使用逻辑回归凸显了影像组学特征的更广泛适用性，这些特征可以被传统的机器学习算法有效利用，而无需深度神经网络来处理图像表征。

超声与其他模态的融合

超声也可以与其他数据源整合以增强乳腺癌分类，例如数字乳腺断层合成、文本报告和 mammography，以利用互补的解剖信息。一些研究将 mammography 用于分子亚型预测，而其他研究则在组合框架中强调可解释性。除了成像，其他研究还将超声与临床数据整合。一些研究使用这种融合来指导医疗决策，而另一些研究则结合 mammography 和超声图像以及人口统计数据来构建用于活检建议的综合模型。

mammography (MG)

mammography 仍然是乳腺癌筛查和诊断的基本工具，因其通过高分辨率X射线成像检测早期肿瘤的能力而被广泛使用。它通常是人群广泛筛查计划中的一线模态，并在风险评估、病灶表征和活检计划中发挥关键作用。近年来，AI算法越来越多地应用于 mammography 数据以支持自动检测、分类和分诊。深度学习和影像组学方法在识别可能视觉上无法辨别的细微特征方面显示出前景，提高了诊断准确性和工作流程效率。

为了克服标准二维成像的局限性，先进的 mammography 技术被开发出来以提供更好的对比度和结构细节。数字乳腺断层合成从多个低剂量X射线投影重建体积图像，提供改进的病灶定位并减少组织重叠的影响，这是传统 mammography 中假阳性和假阴性的常见来源。另一项创新，对比增强能谱 mammography，使用碘基造影剂和双能量采集来突出异常血管区域，增强恶性病灶的可见性。

标准的 mammography 检查通常包括两个主要成像视角：头尾位和内外斜位。头尾位捕捉乳房的自上而下图像，而内外斜位则成角度以包括乳腺组织和腋窝上部区域。这些正交视角旨在提供乳房的全面覆盖，并通过提供不同的解剖背景来提高病灶可检测性。AI模型通常在训练和推理过程中利用这两个视角来学习空间相关性并提高分类性能。当与DBT或CESM等先进模态结合使用时，这些视角构成了更详细的多角度分析的基础，进一步增强了计算机辅助诊断系统的潜力。

mammography 多视角融合

广泛的研究利用标准的头尾位和内外斜位 mammography 视角一起提供乳房的互补视图。一些研究采用直接的融合策略来结合头尾位和内外斜位图像进行二元分类。其他研究通过使用头尾位和内外斜位视角中的低能量和双能量减影图像来利用CESM。更先进的建模技术也被开发出来以利用视角间的关系。多任务连体网络可以联合匹配两个视角上的肿块，Transformer模型可以有效地融合两个视角。其他研究通过整合交叉注意力和多实例学习来扩展这一点，以在未标注数据上训练。类似地，一些研究将两个视角表示为二分图，使得能够使用图卷积网络来建模视角级交互。这些视角还可以结合放射科医师的注视信息，以增强可解释性和模型指导，以及结合临床元数据和超声模态以增强亚型预测。

mammography 与其他模态的融合

越来越多的研究通过将 mammography 与不同的数据源整合来增强 mammography 分析以提高诊断性能。一些研究侧重于将 mammography 与超声结合，要么通过手工特征，要么通过深度学习。其他研究将 mammography 与临床或人口统计数据结合，用于各种任务，包括亚型分类、癌症预测和活检建议。影像组学也在跨模态学习中发挥作用。影像组学评分在课程学习框架中作为病例难度的代理。在更专业的组合中， mammography 可以与组织病理学和动态对比增强MRI结合以利用多模态。更近的方法利用先进的数据表示来改进多模态乳腺癌分析。应用冻结的视觉语言模型将 mammography 图像与电子健康记录相结合。具体来说，他们利用EVA-CLIP（原始CLIP框架的改进变体）分别通过专用的视觉和文本编码器对 mammography 图像和EHR数据进行编码，实现有效的数据表示。这些多模态策略说明了 mammography 分析的适应性及其在丰富异构临床和成像数据时的潜力。

采用中期或晚期融合策略结合传统CNN或ResNet架构或SVM分类器的研究在诊断任务中 consistently 实现了高AUC值（范围从85%到97%）。相比之下，两个专注于筛查的研究使用了中期融合和CNN架构，并报告了显著不同的AUC（73%对97%）。这种差异似乎与数据集大小的显著差异密切相关，表明小规模研究中存在模型泛化问题。同样采用中期融合策略和CNN模型的肿瘤亚型分类研究实现了93%的AUC。

磁共振成像

MRI是乳腺癌成像的基石，因其优异的软组织对比度和提供解剖和功能信息的能力而备受重视。特别是，它在检测致密乳腺组织中的肿瘤、评估病灶范围和监测治疗反应方面非常宝贵。各种专门的MRI模态被用于捕捉乳腺肿瘤生物学的不同方面。T1加权和T2加权序列是标准的解剖成像协议。对比增强MRI利用钆基造影剂通过增强具有异常血管区域的可见性来改善肿瘤的可见性。建立在CE-MRI之上，动态对比增强MRI在造影剂注射之前、期间和之后捕获T1WI的时间序列，允许分析随时间变化的增强动力学。DCE-MRI提供关于肿瘤灌注和通透性的功能信息，使得能够基于其造影剂摄取和洗脱模式来表征病灶。扩散加权成像提供对组织内水分子流动性的洞察。癌组织由于其高细胞密度和致密的细胞外基质往往限制水扩散，导致在DWI图像上呈现高信号强度。相应的表观扩散系数图量化这种扩散，并有助于区分良性和恶性病变，恶性肿瘤通常显示较低的ADC值。短时反转恢复是一种脂肪抑制技术，通常与其他序列结合使用。通过抑制脂肪信号，STIR改善了脂肪性乳腺组织中病灶的可见性，特别是在致密乳房的患者中。这些MRI模态中的每一种都提供互补信息。当整合时，它们为乳腺癌检测、分类和治疗反应评估提供了强大的多模态方法。

MRI多模态融合

整合多种MRI模态可以通过提供互补的解剖和功能信息显著增强乳腺癌成像中的模型性能。一些研究采用3D CNN使用DCE-MRI、T1WI和T2WI来检测乳腺癌。类似地，利用T1WI、T2WI、DWI、DCE-MRI和ADC图的组合进行二元分类，展示了整合不同成像序列以捕获肿瘤的多个生物学特征的有效性。这些MRI模态经常与额外的数据源结合，例如 mammography 和临床信息，以改进诊断和预后建模。一些研究证明了整合临床变量以预测病理完全反应与各种类型的MRI（如DCE-MRI、T1WI和T2WI、以及T1WI、T2WI、DWI和STIR）的好处。其他研究旨在预测生存结果和利用多模态MRI框架预测癌症复发。

除了临床数据，更全面的方法包括整合基因组学和全切片成像。结合MRI与蛋白质组学、基因组学和临床信息，使用机器学习技术预测接受新辅助治疗患者的pCR。整合MRI、WSI和临床风险因素以评估治疗反应，突出了结合放射学和病理学数据的潜力。总之，这些研究反映了乳腺癌研究中朝向多模态整合的增长趋势，其中MRI与临床、组织学和分子数据一起作为核心组成部分。这种方法旨在提高诊断和预后模型的准确性、通用性和临床相关性，支持更个性化和知情的治疗策略。

总体而言，回顾的研究在预测pCR和生存结果方面 consistently 实现了高AUC或准确度值，范围从88%到92%。

其他成像技术

热成像

热成像包括红外热成像和太赫兹成像，是一种非侵入性、无辐射的技术，通过测量身体的热分布和电磁响应来检测生理异常。作为一种功能成像方法，热成像因其能够捕获早期生理变化（如血管增加、局部炎症和代谢活动升高）而在乳腺癌研究中受到关注，这些变化通常先于可见的结构异常。IRT检测从皮肤表面自然发出的热辐射以产生温度图。在乳腺癌筛查中，这些图可以突出与肿瘤生长相关的不对称性或局部热点。尽管有其优点，如低成本、安全性和便携性，但IRT仅限于浅表测量并且对外部条件高度敏感，这历史上限制了其诊断可靠性。另一方面，THz成像通过探测组织的介电特性提供浅表层成像。恶性组织往往表现出更高的水含量和独特的电磁特征，使得能够与健康组织区分开来。虽然THz成像提供分子和组成对比，但它面临实际挑战，包括有限的穿透深度、较慢的成像速度和较高的设备成本。在一起，IRT和THz代表了热成像的互补组成部分，并将两种模态与CNN结合用于乳腺癌分类。

显微镜检查

显微镜检查仍然是乳腺癌诊断的核心，提供组织结构和细胞形态的详细视图。临床实践依赖于苏木精和伊红染色的明场显微镜来评估核异型性、有丝分裂活性、导管结构和间质浸润，形成肿瘤分类、分级和分期的基础。数字病理学和AI现在通过WSI、自动恶性肿瘤检测和分子标记物预测来增强这一工作流程。无标记技术，如自发荧光成像，通过揭示代谢和生化变化而不需要染色来补充明场分析。内源性荧光团如NADH、FAD和胶原蛋白在恶性转化过程中发生变化，使得能够实时区分癌组织和正常组织，特别适用于术中切缘评估。正交偏振成像通过抑制表面反射和突出表层下特征（如重塑的基质胶原）增加结构洞察。总之，这些模态整合形态学、代谢和微结构信息以提高诊断准确性并支持手术决策。

最近的研究越来越多地探索多模态显微镜成像与机器学习以增强乳腺癌分类。将BFM、AFI和OPI与深度学习模型结合以提取和融合互补信息用于诊断任务。其他研究人员将BFM与其他模态结合以改进分类和预测，例如 mammography、核糖核酸序列和基因表达数据。类似地，将病理图像与基因表达数据和拷贝数变异结合以预测分子亚型。为了整合更多数据模态，将WSI与MRI和临床风险因素结合以预测pCR。另一方面，一些研究将EHR或临床数据与成像结合用于诊断和复发预测。

在两项针对相同诊断目的的比较研究中，一项使用CNN，另一项使用前馈深度学习网络，两者都实现了高性能，报告的准确度分别为98%和AUC 94%。然而，另一项使用类似CNN进行复发预测的研究取得了较差的结果（AUC为72%），而与使用Transformer模型进行相同任务的研究（AUC为89%）相比，尽管使用了相同的融合策略。这种差异很可能是由于患者样本量的显著差异（127对6,172）造成的。

PET和CT

正电子发射断层扫描和计算机断层扫描是通过结合代谢和解剖信息来评估乳腺癌的有价值的成像工具。PET，通常使用氟代脱氧葡萄糖作为示踪剂，突出显示可能指示淋巴结或远处器官癌症受累的代谢活性增加区域。CT增加了精确的结构细节，帮助临床医生评估肿瘤大小、位置和周围组织变化。当整合在一起时，这些模态提高了检测转移、监测疾病进展和评估治疗反应的准确性，使其成为全面乳腺癌管理的重要组成部分。

最近的研究探索了PET和CT特征与深度学习和机器学习方法的整合，包括使用DenseNet和Transformer进行亚型分类。其他工作使用两种模态与XGBoost预测人表皮生长因子受体2状态。PET和CT影像组学也与机器学习方法整合以支持乳腺癌的预后评估。PET也可以与其他数据模态结合。其他研究结合PET与MRI使用SVM以提高诊断准确性，并融合PET与组织病理学、基因组学和临床信息使用SVM进行治疗反应预测。

两项关于肿瘤亚型分类的研究，使用组合的PET/CT模态，均采用中期融合策略但不同的AI模型，组合的DenseNet/SVM模型与Transformer，报告了可比的结果，准确度分别为94%和95%。另一方面，表中呈现的其余三项研究采用了传统的机器学习算法，包括SVM和XGBoost（后者是一种基于决策树的集成学习方法），用于pCR预测、诊断和HER2状态预测的任务。考虑到57、102和217名患者的小数据集大小，这种选择是可以理解的。相应的AUC分别为82%、98%和76%。

临床数据

临床数据对于乳腺癌诊断、预后和治疗计划至关重要。它可以分为结构化数据，例如编码字段、复选框和数字条目，这些数据是一致的并且易于集成到计算模型中；以及非结构化数据，如自由文本临床笔记或放射学报告，这些需要自然语言处理来提取可操作信息。两种类型都提供了对患者护理至关重要的互补洞察。

结构化临床数据

人口统计数据是结构化临床数据的一个关键子集，包括患者年龄、性别和种族。年龄是乳腺癌中最显著的风险因素之一，年龄较大的个体患病的可能性更高。将人口统计信息纳入计算模型有助于捕捉人群水平的变异，并有助于在临床环境中进行更公平和个性化的决策。在许多研究中，结构化临床数据与热成像、组织病理学、超声、MRI和 mammography 结合，用于广泛的临床应用，如筛查、诊断、pCR预测和复发估计。

另一个重要的临床信息来源是电子健康记录，它提供结构化数据。与非结构化临床报告或叙述性医生笔记不同，EHR的结构化组件可以直接纳入机器学习模型，而无需额外处理。这些记录支持纵向分析，允许研究人员和临床医生跟踪疾病进展、监测治疗反应和评估长期结果。EHR已与组织病理学图像、MRI序列和 mammography 结合。

并行地，许多研究调查了临床数据与分子水平信息的整合，包括基因表达和拷贝数改变、基因组学、和蛋白质表达数据。例如，探索类似的整合以预测乳腺癌的药物反应。这些工作突出了结合结构化临床背景与潜在分子景观以支持个性化乳腺癌治疗的重要性。

非结构化临床报告

非结构化临床报告是医疗保健专业人员作为常规医疗文档一部分创建的叙述性自由文本条目。这些报告涵盖广泛的临床内容，包括诊断印象、手术摘要、病理学解释、影像学发现和进展笔记。与遵循预定义模板或数据字段的结构化文档格式不同，非结构化报告以自然语言编写，允许临床医生以灵活和详细的方式捕获观察结果和临床推理。

非结构化临床报告的主要优势在于其丰富的临床背景及其反映复杂决策过程的能力。然而，这种灵活性也对数据标准化、检索和计算分析提出了重大挑战。语言、术语、缩写和报告组织的可变性使得难以跨患者记录或临床设置提取一致的信息。

自然语言处理的最新发展显著提高了分析非结构化临床文本的能力。这些技术允许自动提取关键临床概念，如诊断、治疗计划、治疗反应和疾病进展。在此基础上，大型语言模型的最新进展进一步增强了对临床叙述的准确性、适应性和上下文理解。基于Transformer架构的模型能够解释复杂的句子结构、解决歧义并识别早期基于规则或统计方法经常遗漏的细微临床线索。

在生物医学语料库上训练的大型语言模型可以进行微调以提取高度特定的临床实体，将其映射到标准化术语，甚至推断文本中的隐含关系。这使得能够更可靠地识别细微信息，如疾病状态的时间变化、临床试验的资格标准和患者特定的风险因素。因此，这些模型越来越多地被整合到临床决策支持系统、EHR挖掘和实时信息检索中，以前所未有的规模和精度支持研究和点护理应用。

建立在语言模型能力的基础上，最近的研究探索了文本和成像数据的整合以改进临床决策。从非结构化临床报告中提取特征，并与径向和反径向超声视角结合用于诊断。这些特征是使用预训练的文本编码器导出的，以捕获语言模式和语义。类似地，训练一个Transformer模型来捕获组织病理学图像的文本报告中的模式以预测复发评分。这些方法例证了如何将医学背景与成像模态整合以提高诊断准确性。

所有这些都是用中期融合策略结合自动编码器、CNN、ResNet或其3D变体用于pCR预测、治疗反应、肿瘤亚型分类和诊断等任务。这些研究 consistently 报告了高AUC值，范围从88%到94%。

结论

本综述回顾了用于乳腺癌管理的多模态AI方法，涵盖了广泛的数据源，包括成像模态，如超声、 mammography、MRI、CT、PET和显微镜检查，以及结构化临床数据和非结构化临床报告。通过围绕个体数据模态、成像视角及其整合策略组织文献，本综述提供了关于多模态AI如何应用于整个临床工作流程的以模态为中心的综合，突出了其在改进诊断、肿瘤表征、治疗计划和结果预测中的作用。重要的是，本综述强调了多模态数据整合和多模态建模，而非单一模态上的个体算法选择，作为近期AI辅助乳腺癌管理进展的关键驱动因素。

跨研究来看，中期、早期或晚期融合策略结合深度学习架构，如CNN、ResNet及其3D变体， consistently 实现了高预测性能，AUC值通常范围从85%到98%，具体取决于临床任务。基于Transformer的模型在整合异构模态方面显示出前景，尽管在某些情况下性能受限于较小的数据集大小。传统的机器学习算法，包括SVM和XGBoost，对于较小的数据集仍然适用，根据任务实现中等至高AUC。值得注意的是，性能差异通常与数据集大小的差异有关，说明了数据可用性和组成对模型泛化性的关键影响。

总之，这些发现证明了多模态融合在推进AI驱动的乳腺癌护理方面的有效性。更详细的分析表明，当适当地匹配数据特征和临床目标时，多模态融合提供了持续的性能增益。特别是，在选定的超声研究中，采用早期或中期特征级融合结合AI模型架构（如CNN或ResNet）的多模态融合方法的全面研究，已在临床任务（包括诊断、筛查和肿瘤亚型分类）中展示了增强的性能，实现了超过95%的AUC值。此外，使用中期或晚期融合策略结合CNN或ResNet架构的多视角 mammography 研究，在各种诊断任务中 consistently 实现了高AUC值，范围从85%到97%。类似地，采用类似融合策略与3D CNN模型的代表性MRI研究也显示出显著的性能改进，在预测病理完全反应和生存结果方面，AUC或准确度值范围从88%到92%。重要的是，AI架构和融合策略的选择应由数据集大小和特定任务需求指导。

尽管有这些令人鼓舞的结果，几个关键挑战仍然存在。许多模型在相对较小或模态不平衡的数据集上训练，外部验证有限，并且纵向数据和多样化患者人群的代表性不足。跨研究的融合策略往往缺乏标准化的、临床指导的协议，因此限制了可重复性和跨研究比较。此外，多模态模型的可解释性及其与常规临床工作流程的整合仍未得到充分解决，可能限制其在临床实践中的采用。

展望未来，几个方向可能推动该领域前进。开发大规模、精心策划的多模态数据集，整合成像、临床和文本信息，对于训练可靠模型和确保严格、无偏见的评估至关重要。临床相关的融合策略和多模态基础模型有潜力捕获复杂的疾病模式，同时提高通用性。纳入多视角和纵向数据，例如在化疗之前、期间和之后收集的顺序 mammogram、超声图像或MRI扫描，或跟踪肿瘤大小、形状或影像组学特征随时间的变化，可以增强对疾病进展、治疗反应和复发风险的建模。同样重要的是将可解释性、不确定性量化和人-AI协作嵌入模型设计，以确保AI作为有效的临床决策支持系统而非孤立的预测器运行。最后，严格的外部验证、前瞻性研究以及对监管和部署考虑的仔细关注，对于将多模态AI从研究转化为乳腺癌管理的常规临床实践至关重要。

热点排行