《Journal of Imaging》:A Comprehensive Review of Artificial Intelligence for Brain Tumor Analysis: Taxonomy, Robustness, and Open Challenges in Neuro-Oncology
编辑推荐:
脑肿瘤的检测作为一项临床问题具有挑战性,原因在于肿瘤异质性以及对手动神经影像解读的依赖,而后者容易产生人为误差。人工智能(AI)已展现出作为临床决策支持工具的强大潜力,能够辅助放射科医师提高诊断准确性并支持神经影像数据的解读。采用机器学习(ML)和深度学习(D
脑肿瘤的检测作为一项临床问题具有挑战性,原因在于肿瘤异质性以及对手动神经影像解读的依赖,而后者容易产生人为误差。人工智能(AI)已展现出作为临床决策支持工具的强大潜力,能够辅助放射科医师提高诊断准确性并支持神经影像数据的解读。采用机器学习(ML)和深度学习(DL)算法的AI在肿瘤检测、分割和分类任务中表现可靠。数据集偏倚、泛化能力有限、缺乏可解释性以及高昂的计算成本等挑战必须在临床应用前加以解决。本文对应用于脑肿瘤影像的AI方法进行了综合评述,主要聚焦于成人弥漫性胶质瘤,并在相关处同时对脑转移瘤、脑膜瘤及儿童肿瘤进行次要覆盖。本综述的主要贡献在于提出了一个新的三因素分类法(诊断任务、学习策略和数据模态)。除了基于准确性的指标外,研究人员还对鲁棒性、泛化能力以及已发表文献中识别的临床采用的主要障碍进行了定性评估,同时承认全面的临床效用证据仍是开放的研究方向。
1. 引言
脑肿瘤因其异质性表现、生物学行为和复杂的解剖位置,在神经肿瘤学中构成重大挑战,这些因素使诊断和治疗规划复杂化。手动分析耗时且存在观察者间差异,尤其在具有浸润性边缘的小病灶和位于复杂脑区的肿瘤中。近年来,AI(特别是ML和DL)在自动化脑肿瘤分析任务(如检测、分割和分类)中展现出强大潜力。卷积神经网络(CNN)及其变体在基准数据集上取得了高性能,常达到专家级准确性。更近期,基于Transformer架构的混合模型通过影像数据结合临床和分子信息,进一步增强了特征表示和多模态学习能力。尽管取得这些进展,AI模型向常规临床实践的转化仍具挑战性。主要挑战之一是对 curated 基准数据集(如BraTS)的依赖,这些数据集未能充分代表现实世界的临床变异性,导致在不同扫描仪和机构间泛化能力差。此外,许多DL模型作为"黑箱"运行,限制了其解释能力,降低了临床医生在关键决策中的信任。数据保护法规阻碍了数据的集中共享,大规模模型的高成本训练也限制了其在临床环境中的应用。与现有综述不同,本研究提供面向临床的AI脑肿瘤分析技术综合评述,引入了一个统一分类法,整合诊断任务、学习范式和数据模态,以实现对其临床适用性的更全面理解。
2. 脑肿瘤类型与临床决策路径
本章节为AI分析提供临床背景框架。2021年WHO中枢神经系统肿瘤分类(CNS5)标志着范式转变,要求基于组织学和分子特征进行整合诊断,超越单纯形态学。最临床重要的脑肿瘤类型包括弥漫性胶质瘤(IDH突变型和IDH野生型胶质母细胞瘤)、脑膜瘤、脑转移瘤、髓母细胞瘤及其他儿童胚胎性肿瘤。IDH突变型胶质瘤预后显著优于IDH野生型胶质母细胞瘤(GBM),后者尽管接受标准治疗中位生存期仍仅约15个月。诊断流程通常始于临床表现,多序列MRI(T1加权、T2/FLAIR、弥散加权成像(DWI)、灌注MRI和MR波谱)仍是初始评估的基石。手术策略取决于病灶位置、可切除性和患者功能状态,常借助术中MRI、5-ALA荧光引导手术和术中冰冻切片病理评估。切除或活检组织需经组织病理学检查(H&E染色、免疫组化)及综合分子基因组学分析,关键分子标志物包括IDH突变状态、MGMT启动子甲基化、1p/19q共缺失、TERT启动子突变和EGFR扩增。多学科肿瘤委员会整合结果进行个体化治疗,可能包括放疗(遵循RANO 2.0标准)、化疗或靶向分子治疗。术后随访依赖系列MRI,采用标准化反应评估标准(RANO和AI-RANO)监测治疗反应、假性进展和复发。
3. 文献综述方法
本研究采用结构化综述方法,从IEEE Xplore、PubMed、Scopus和Google Scholar检索2018年1月至2025年6月间发表的相关研究。纳入标准包括:同行评审期刊文章或完整会议论文;AI/ML/DL方法应用于脑肿瘤分析;至少报告一个神经影像数据集的定量评估;英文全文可用。排除标准涵盖:非脑肿瘤或非神经影像应用;仅有摘要无方法细节的会议海报;社论、信件和个例报告;重复发表;未在同行评审场所发表的预印本。按提出的分类法(诊断任务、学习范式和数据模态)进行分析和归类,特别关注可解释人工智能(XAI)、联邦学习(FL)、生成模型和多模态数据整合。
文献计量学概览显示,多数研究聚焦于分割、分类和检测任务,而预后和反应评估任务相对不足。成人弥漫性胶质瘤是主导实体,而儿童肿瘤、脑转移瘤和脑膜瘤研究有限。验证策略方面,大多数研究依赖单一数据集或单一机构,少数报告正式的外部验证,嵌入真实临床工作流的前瞻性评估非常罕见。公共基准(主要是BraTS系列)支撑了大多数报告结果,这既促进了方法可比性,也加剧了领域的基准依赖性。
4. AI技术的脑肿瘤分析分类法
本章节提出三维度分类法:(i) 诊断任务,(ii) 学习方法,(iii) 数据模态。
诊断任务维度:临床实践中多数AI应用集中于肿瘤检测和分类,原因在于标注影像数据的可获得性和定义明确的评估指标。肿瘤分割更为复杂,涉及标记肿瘤边缘和区域,对手术规划和放疗有用,但模型对成像变异性和特定扫描仪特征敏感,限制了其鲁棒性。生存预测和治疗反应预后仍然研究不足,纵向数据集和标准化结局标签的缺乏阻碍了该临床相关领域的发展。
学习方法维度:方法学正从经典ML模型向复杂DL模型过渡。ML分类器联合影像组学(Radiomics)流程涉及可解释的定量特征,但严重依赖手工设计描述符和精心特征选择。DL方法,特别是基于CNN的架构,因其直接从原始影像数据学习分层图像表示的能力而成为主导范式。近期先进架构旨在缓解局限,如结合影像和分子信息进行胶质瘤分类的AI系统。然而,计算量大且解释性差的复杂架构可能不利于临床部署,这促使了对XAI和效率感知模型设计的兴趣增长。
数据模态维度:结构MRI因其高软组织对比度和临床广泛应用,目前是所有任务中最常用的方法。影像组学方法允许从MRI数据中提取定量特征,更适合可解释性,但预处理要求更复杂。近期框架将分子、基因组和临床数据与影像结合用于精准神经肿瘤学。尽管多模态方法潜力强大,但面临数据变异、隐私限制和规模挑战,这引发了对联邦学习范式的兴趣。
5. 超越准确性的性能分析
5.1 以准确性为中心的评估局限:仅关注准确但并不足够的指标,如在类别不平衡数据集中,高准确性模型可能存在校准不良和置信度估计错误。典型分割指标如Dice分数无法捕获浸润性边缘或肿瘤边缘模糊情况下的边界准确性或临床相关性。
5.2 跨数据集的鲁棒性与泛化:关键挑战在于跨成像中心、扫描仪和患者人群的鲁棒性与泛化不足。模型在BraTS等curated基准上训练评估,更换数据集时性能下降,外部验证时敏感性和分割能力显著下降。四个转化模式持续出现:外部验证仍是例外而非规则;基准依赖性普遍;扫描仪和厂商多样性不足;前瞻性临床评估在引用的来源中基本缺失。
5.3 临床就绪性与真实世界适用性:算法实际可部署性需考虑临床工作流整合、推理延迟和鲁棒性。研究设置与临床设置在数据、预处理、模型、评估、验证和利益相关者六个维度存在显著差异。临床AI必须在来自不同扫描仪、采集协议和患者人群的异质性数据上运行,常导致相较于curated基准数据集的重大性能下降。
6. 面向脑肿瘤诊断的可解释人工智能(XAI)
6.1 可解释性的关键性:与传统基于规则的决策支持工具不同,AI脑肿瘤模型通常不暴露其预测依据。但可解释性本身不能替代临床有效性;合理的解释可能伴随校准不良、有偏倚或不安全的模型。
6.2 模型无关与模型特定的XAI技术:模型无关方法(如LIME、SHAP)可应用于任何模型,但在高维医学图像中往往不稳定且空间可解释性较差。模型特定方法(如基于梯度加权类激活映射(Grad-CAM)的热图和注意力机制)提供像素级或区域级解释,但显著性图并不总是真实反映模型推理。
6.3 临床信任、验证与XAI局限:XAI不是临床有效性的证据。视觉上有说服力的显著性图或连贯的SHAP归因可能仍来自错误、有偏倚、校准不良或不安全的模型。临床有效性需要XAI无法提供的证据:独立多机构队列的外部验证、校准评估、不确定性估计、实际临床工作流中的前瞻性评估、以及临床效用研究。多模态XAI不能简化为仅图像热图,需配合每种模态的适当解释方法和跨模态归因。
7. 面向脑肿瘤成像的生成式人工智能
7.1 生成式AI的动机:常规数据增强方法增加的变化有限,而生成模型旨在创建保持结构和病理一致性的医学图像,丰富训练集分布。
7.2 基于GAN的图像生成:条件GAN和StyleGAN架构在生成脑MRI扫描和肿瘤亚区域方面有效,但存在训练稳定性、模式崩溃和难以保留精细解剖细节等局限,安全性关键神经肿瘤学应用中的微妙结构错误可能产生临床误导性伪影。
7.3 高保真医学图像生成的扩散模型:扩散模型通过渐进去噪过程生成图像,展现出更高的视觉保真度、训练稳定性和解剖一致性。在脑肿瘤成像中,扩散模型在生成真实MRI扫描方面展现强大能力,适用于数据增强、域适应和跨机构泛化。扩散模型一般优于GAN方法,正成为临床相关应用的方向。
7.4 临床影响、风险与挑战:合成数据可能产生不存在特征、强化数据集偏倚或引入难以察觉的细微伪影,需要严格的验证协议。
8. 面向隐私保护脑肿瘤分析的联邦学习
8.1 动机与隐私挑战:神经影像数据分布在不同医院和异质采集协议中,联邦学习(FL)允许多机构协作训练模型而不共享患者数据。GDPR和HIPAA等法规阻止机构间的数据聚合。
8.2 联邦学习范式和应用:FL系统通常采用中央服务器聚合范式(如FedAvg),替代的去中心化和个性化FL策略缓解非独立同分布(non-IID)分布的影响。FL在脑肿瘤分割和分类任务中展现出与集中式训练相当的性能,同时保持数据本地性。但存在通信成本高、系统复杂性增加和数据异质性等实际挑战。
8.3-8.4 系统架构与临床就绪:本地机构不共享原始MRI数据,仅安全加密地交换模型更新。但通信开销增加训练时间,non-IID数据分布可能降低收敛性和公平性,需要个性化策略、安全聚合和临床验证。
9. 精准神经肿瘤学的多模态融合
9.1 多模态学习动机:脑肿瘤(尤其胶质瘤)存在显著的分子异质性,IDH突变状态、1p/19q共缺失和MGMT启动子甲基化等分子标志物对WHO CNS5分类和治疗规划至关重要。结合影像和分子谱的研究一致报告优于仅影像基线的预测。
9.2 多模态融合策略和学习范式:多模态融合分为早期融合、中期融合和晚期融合。当前三种架构趋势定义了技术前沿:使用交叉注意Transformer的中期融合取代简单特征拼接;联合视觉-语言和视觉-组学基础模型实现对保留机构的零样本或少量样本迁移;基于注意力的池化提供内置的模态归因信号。但已发表多模态研究相较于强单模态基线的绝对改进仍然有限,外部验证证据是例外而非规则。
9.3 多模态流程和临床适用性:转化为临床部署需解决三个具体障碍:模态异质性(支持推理时的模态丢失)、队列规模(多模态队列通常小于仅影像队列)、可解释性(暴露驱动预测的模态)。带注意力机制的模块化架构是当前应对三者的最佳方案。
9.4 挑战和未来方向:五个差距定义了即时研究议程:队列规模、外部验证、缺失模态、前瞻性临床效用研究、以及评估框架。没有一项代表性研究对应于已发表的前瞻性试验,测量多模态预测是否改变治疗决策或改善患者结局。
10. 计算效率与可持续性(绿色AI)
DL方案的复杂性持续增加以提升性能,导致GPU资源垄断、训练时间长和功耗高。临床环境要求医学影像AI准确、快速、稳定且成本效益高,这一权衡在该背景下尤为重要。繁重计算需求可能阻碍实时推理或在资源受限医院的部署。效率感知设计正受到关注,包括模型压缩、剪枝、量化、轻量级架构和早期退出策略。绿色AI倡导除准确性报告外,还应声明训练时间、能源成本和硬件类型等资源使用指标。
11. 从基准数据集到真实世界临床数据
基准数据集通过提供标准化数据、标注和评估协议在推进脑肿瘤分析中发挥核心作用,但curated条件下的强性能不保证真实医疗环境中的鲁棒或临床可靠行为。主要局限包括:采集控制条件下临床多样性差;标签可靠性问题(curated基准压缩真实诊断不确定性,真实世界标签常延迟且部分缺失);泛化性能高估。缩小差距需要多中心队列、前瞻性评估和超越准确性的临床相关终点。
12. 开放研究挑战和未来展望
主要剩余挑战是鲁棒性和泛化能力。另一重大挑战是临床代表性数据集的可获得性和可靠性。生成模型和联邦学习虽解决数据稀缺和隐私问题,但也引入保真度、偏倚放大和系统复杂性等风险。从系统层面,效率和可持续性日益关键。精准神经病学的发展依赖于大型国际医院网络中的协作研究和评估,需要综合评估预测性能、鲁棒性、可解释性、效率和临床影响的整合框架。
13. 研究局限性
本综述作为结构化叙述性综述呈现,配合轻量级文献计量学概览,而非完整科学计量学研究或正式系统综述。对正式临床指南(CNS5、RANO 2.0、AI-RANO)的参与有限,监管路径覆盖不足,真实世界临床采用证据的系统回顾因目前文献稀疏而未进行。
14. 结论
本综述提供了AI脑肿瘤分析方法的综合技术评述。三因素分类法按诊断任务、学习范式和数据模态组织文献。评估视角从准确性扩展到鲁棒性、泛化和临床采用障碍。XAI定位为调试和沟通工具而非临床有效性证据;生成式模型作为解决数据稀缺的手段而非真实临床异质性的替代;多模态融合被识别为最具影响力的前沿领域,但报告的增益仍然温和,外部验证是例外,前瞻性临床效用证据基本缺失。本综述强调,任何对脑肿瘤AI的负责任评估必须同时考虑预测性能、鲁棒性、校准、可解释性、计算成本和临床可行性。未来预期将从独立狭义AI系统转向临床整合的多模态决策支持系统,利用预定变更控制计划下的持续学习,联邦学习、生成建模和XAI与指南对齐评估协议及前瞻性临床效用研究共同定义从基准性能到临床转化的路径。