XAI-BT-EdgeNet:一种基于可解释性边缘感知的深度学习模型,结合挤压-激励(squeeze-and-excitation)机制,用于脑肿瘤的检测与预测

《Frontiers in Artificial Intelligence》:XAI-BT-EdgeNet: explainable edge-aware deep learning with squeeze-and-excitation for brain tumor detection and prediction

【字体: 时间:2025年11月20日 来源:Frontiers in Artificial Intelligence 4.7

编辑推荐:

  精准脑肿瘤检测与可解释性AI框架XAI-BT-EdgeNet研究,提出融合InceptionV3语义特征与Sobel边缘检测的双分支架构,结合SE模块自适应特征 recalibration和LIME/Grad-CAM等四类可解释性技术,在4589例MRI数据上实现99.58%训练精度与100%测试精度,通过热力图验证模型决策区域与实际肿瘤区域高度重合,为临床提供高精度且可溯源的智能诊断工具。

  脑肿瘤是影响中枢神经系统的一种复杂且致命的疾病,其对神经功能、认知能力和整体生活质量产生重大影响。全球范围内,脑肿瘤是癌症相关死亡的重要原因之一,尤其是在儿童和老年人群体中更为常见。由于脑肿瘤的生物学异质性和不可预测的生长模式,其诊断和治疗面临严峻挑战。因此,准确和早期的诊断对于改善治疗方案和提高患者预后至关重要,因为延误诊断往往导致疾病迅速进展和生存率下降。MRI(磁共振成像)是用于非侵入性可视化脑肿瘤的主要成像技术,因其能够提供高分辨率的解剖细节和组织对比,而无需使用电离辐射。然而,MRI图像的解读具有高度的复杂性,并且高度依赖放射科医生的经验。手动评估通常具有主观性、耗时性和因观察者而异的可变性。在医疗资源有限或高需求的环境中,对MRI图像的依赖可能导致诊断延迟或忽视某些微妙的病理特征。因此,开发自动化辅助决策系统以帮助肿瘤检测和分类变得尤为重要。

为了克服这些挑战,本研究提出了一种名为XAI-BT-EdgeNet的可解释性深度学习框架,该框架集成了挤压和激励(Squeeze-and-Excitation, SE)模块,以提高脑肿瘤检测的准确性。XAI-BT-EdgeNet采用了双分支设计,将InceptionV3网络提取的高层语义特征与通过边缘特征块(Edge Feature Block)获得的低层边缘表示进行融合。这种结构不仅提升了模型对肿瘤特征的识别能力,还增强了对肿瘤边缘的感知,这对肿瘤分类具有重要意义。SE模块的作用在于动态调整通道特征响应,使模型能够专注于具有临床意义的区域,从而进一步提高分类精度。

在临床应用中,深度学习模型的“黑箱”特性常常成为其广泛应用的主要障碍。大多数卷积神经网络(CNN)在提供预测结果的同时缺乏解释,这使得临床医生难以信任或理解其决策过程。这种不透明性在高风险领域如肿瘤学中尤为严重,因为诊断的精确性和可追溯性至关重要。为了提高模型的可解释性,XAI-BT-EdgeNet结合了四种可解释人工智能(XAI)技术:LIME(局部可解释模型无关解释)、Grad-CAM(梯度加权类激活映射)、Grad-CAM++(改进版Grad-CAM)以及Vanilla Saliency(基本显著性图)。这些方法能够为预测提供可解释的视觉说明,帮助医生理解模型在哪些区域做出判断,从而提升模型的可信度和临床适用性。

本研究的主要贡献包括以下几个方面:

1. **边缘感知的双分支CNN架构**:通过结合InceptionV3和边缘特征块,该模型能够捕捉到语义和边界级别的特征,从而提高脑肿瘤的检测和分类准确性。
2. **SE模块的特征增强**:SE模块能够动态调整特征通道的重要性,增强模型在不同肿瘤类型和等级上的分类能力。
3. **内置的可解释性机制**:通过集成LIME、Grad-CAM、Grad-CAM++和Vanilla Saliency等XAI方法,该模型能够提供可解释的预测结果,提升临床信任度。

本研究的结构安排如下:第二部分回顾了现有文献,强调了传统方法在可解释性和特征表示方面的局限性;第三部分详细介绍了数据集的准备、预处理策略以及XAI-BT-EdgeNet的架构设计;第四部分讨论了模型的评估标准;第五部分展示了实验结果,包括分类性能和使用多种XAI方法进行的可解释性分析;第六部分深入探讨了研究发现,分析了模型的优势、实际意义以及潜在的局限性;最后,第七部分总结了研究的关键成果,并提出了未来的研究方向。

本研究使用的数据集是由Viradiya(2021)开发的脑肿瘤数据集,该数据集包含4,589张带有标签的MRI图像,分为脑肿瘤(2,513张)和健康(2,076张)两类。每张图像代表一个人类大脑的MRI切片,这些图像按类别组织在不同的文件夹中,便于监督学习流程的执行。尽管该数据集缺乏像素级的肿瘤分割标签和元数据,如患者信息、采集参数或肿瘤类型,但它仍然是医学图像任务中初始实验和模型原型设计的重要资源。此外,图像质量、亮度和对比度的差异为模型的鲁棒性和泛化能力提供了现实挑战。

为了支持稳健的模型评估和确保实验设计的一致性,本研究采用了一种自动化方法,将图像数据集划分为训练、验证和测试子集。该方法接受参数,指定所需子集类型、分配比例、数据集源目录以及每个类别的图像数量映射。在开始处理之前,系统会检查目标目录是否存在,如果不存在,则创建每个类别的子目录。为了确保结果的可重复性,使用固定种子(42)的随机数生成器进行图像选择。随后,系统从每个类别中提取图像文件列表,并根据指定的分割比例确定每个子集的图像数量。为了避免因分割比例过大而引起的错误,系统会检查所选图像数量是否超过可用总数。

一旦每个类别的图像被随机选择,它们就会从原始数据集位置复制到目标子目录中对应的文件夹。这一过程对每个类别重复进行,以确保所有数据集分割中原始类别分布的保持。通过多次调用该函数,可以创建训练、验证和测试集,比例分别为70%、15%和15%。这种自动化数据集分割方法提高了深度学习管道的可扩展性和可重复性,确保了数据集的分层和一致性,这对开发可靠的模型,特别是在医学图像分类等敏感领域,具有重要意义。

在深度学习模型中,尤其是处理图像数据时,输入数据的质量和结构对模型的稳健性和泛化能力至关重要。本研究使用TensorFlow/Keras中的create_image_generators函数来创建这些数据管道。该函数通过ImageDataGenerator类封装了数据预处理和数据增强过程,为训练、验证和测试提供了连续的迷你批次流。输入图像被表示为张量,其形状为H×W×C,其中H和W分别是图像的高度和宽度,C是颜色通道的数量(通常为3,用于RGB图像)。

训练数据生成器通过应用一系列随机几何变换来扩展训练数据集,如旋转、翻转、缩放和位移。这些变换有助于防止过拟合,并使模型能够学习与变换无关的特征。相比之下,验证和测试数据生成器仅配置了预处理函数,这意味着它们仅应用了预定义的像素级预处理步骤,如标准化或归一化。这种一致性确保了所有输入数据在相同的尺度和分布上,从而保证模型行为的一致性和评估的准确性。此外,验证和测试数据集不会应用随机变换,如旋转、翻转或位移,以确保它们反映真实、未修改的数据,从而进行无偏的性能测量。

本研究的数据增强策略如表3所示,包括旋转、缩放、位移和水平翻转等变换,以增加数据集的多样性并提高模型在未见过的MRI图像上的泛化能力。这些增强方法通过引入变化,使模型能够更好地适应不同的肿瘤形态和位置。

XAI-BT-EdgeNet的架构设计结合了预训练的InceptionV3网络与自定义的SE注意力机制,以及基于固定Sobel滤波器的边缘特征提取路径。这种设计使模型既具备丰富的语义信息,又能够感知纹理特征。模型首先接受299×299×3尺寸的图像,与InceptionV3的原生输入维度一致。图像被输入到两个并行的分支中:一个基于InceptionV3的主干网络,另一个基于Sobel滤波器的边缘检测分支。

边缘检测分支基于经典的图像处理理论,其中Sobel滤波器用于近似图像在水平(Gx)和垂直(Gy)方向上的第一阶梯度。这些梯度的计算有助于识别边缘特征,并通过全局平均池化(GAP)生成紧凑的边缘特征向量。同时,输入图像被输入到InceptionV3中,该网络通过一系列卷积块提取深层、分层的特征。由于InceptionV3在ImageNet等大规模图像分类任务中表现出色,因此它保留了通用的视觉知识,有助于提高下游任务的收敛性和性能。然而,为了适应特定任务,最后几层(从定义的索引开始)被解冻,以便进行微调。

为了增强InceptionV3输出的表示能力,应用了SE模块。SE模块通过建模特征通道之间的依赖关系,动态调整通道特征响应。这一过程分为三个步骤:**Squeeze**(通过GAP减少空间维度,生成通道描述符)、**Excitation**(通过两个全连接层生成通道权重)、**Reweight**(将原始特征图与这些学习到的权重相乘,以强调信息量大的通道)。这一机制弥补了传统CNN在通道处理上的不足,即所有通道的处理方式相同,缺乏灵活性。

在SE模块和全局池化之后,网络获得了深层语义特征向量。该向量与边缘特征向量进行拼接,从而有效地融合低层边缘描述符和高层语义抽象。这一融合策略反映了早期融合在多模态学习中的设计原则,有助于提高模型的整体表现。

为了进一步减少过拟合风险并提升模型的泛化能力,该模型在融合后使用了一个包含1024个神经元和ReLU激活函数的密集层,随后是一个Dropout层。最终的分类通过一个Softmax输出层完成,该层为训练集定义的类别分配概率得分。

模型使用Adam优化器进行编译,该优化器适用于稀疏梯度和噪声更新的问题。学习率被固定为10??。损失函数为分类交叉熵,适用于多类分类任务。此外,还使用了一个可选的ReduceLROnPlateau回调函数,监控验证损失并减少学习率以避免陷入局部最小值。

XAI-BT-EdgeNet的混合设计具有良好的理论依据和实际意义。通过引入边缘检测机制,该模型不仅提取了InceptionV3的语义特征,还引入了纹理级别的信息,这在传统CNN中往往被忽视。SE模块的使用进一步优化了特征表示,提升了模型的分类性能。此外,融合策略——将手工提取的边缘特征与深层特征结合——反映了深度学习模型在多模态任务中的典型做法。

尽管XAI-BT-EdgeNet在多个方面展现出显著优势,但其仍存在一些局限性。例如,双分支网络的结构可能会增加计算成本和内存消耗;使用固定Sobel滤波器可能导致模型对不同成像模态或条件的适应性受限;特征融合过程中可能出现冗余或高度相关的特征,特别是在全局平均池化之后;边缘和语义特征在融合时可能因处理流程的不同而出现空间对齐问题;最后,模型的复杂结构可能在缺乏大规模标注MRI数据集的情况下增加过拟合的风险;此外,InceptionV3在ImageNet上进行的预训练可能与医学影像存在领域差异,这可能会影响模型的性能。

尽管存在这些挑战,XAI-BT-EdgeNet仍然在多个方面展现出优越的性能。实验结果显示,该模型在训练、验证和测试阶段分别达到了99.58%、99.71%和100.00%的准确率,同时训练、验证和测试的损失值分别降至0.0103、0.0051和0.0026。这些结果表明,XAI-BT-EdgeNet在脑肿瘤分类任务中具有良好的鲁棒性和精确性。

此外,为了进一步验证模型的性能,研究采用了统计显著性分析。通过将XAI-BT-EdgeNet(准确率0.9958)与20个先前研究的模型(平均准确率0.9634±0.0366)进行比较,研究使用了一样本t检验。计算得出的t值为3.96,p值小于0.001,表明XAI-BT-EdgeNet的性能提升具有统计学意义。

本研究提出的XAI-BT-EdgeNet框架在脑肿瘤检测和分类任务中具有重要意义。通过结合边缘检测和语义特征,该模型不仅提高了分类准确性,还增强了模型的可解释性,使其更符合临床需求。未来的工作可以进一步扩展该方法,以支持多类肿瘤分级、实时诊断以及与放射科医生反馈的集成,从而进一步验证其在实际应用中的效用。

综上所述,XAI-BT-EdgeNet不仅在技术层面实现了高效的肿瘤分类,还在临床层面提供了可解释的预测依据,为深度学习在医学影像分析中的应用开辟了新的可能性。这一框架为构建更加可靠、透明的AI辅助诊断系统提供了坚实的基础,同时也在推动医学AI向更实用的方向发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号