《Journal of Pathology Informatics》:Explainable deep learning techniques for microscopic fungi classification using a learnable threshold-based ReLULeaky activation function and transfer learning
编辑推荐:
真菌感染对人类健康构成日益严重的风险,可危及生命并引起多种健康问题。传统真菌感染的鉴别诊断面临诸多挑战,如临床真菌学家短缺、流程成本高、耗时长以及对准确度与特异性要求高等。早期检测对于有效治疗至关重要。本研究提出一种可解释的微调ResNet34模型用于真菌分类
真菌感染对人类健康构成日益严重的风险,可危及生命并引起多种健康问题。传统真菌感染的鉴别诊断面临诸多挑战,如临床真菌学家短缺、流程成本高、耗时长以及对准确度与特异性要求高等。早期检测对于有效治疗至关重要。本研究提出一种可解释的微调ResNet34模型用于真菌分类,通过集成迁移学习与基于可学习阈值的ReLULeaky(Rectified Linear Unit Leaky)激活函数来丰富特征表示并提升分类性能。为提高特征提取与收敛性,所提出的可学习阈值方法在反向传播过程中动态调整激活水平。研究人员提出的微调ReLULeaky-ResNet34方法在多项测试中表现优异,取得了最佳准确率(95.39%)、F1-score(96%)和精确率(precision)(97%)。此外,模型曲线下面积(AUC)得分达99.40%,确保了鲁棒的分类性能。该研究通过系统比较现有与所提激活函数,凸显了自适应阈值的效能。可解释性验证模型关注生物学显著的形态学特征。这些结果表明微调ReLULeaky-ResNet34模型在准确、快速的真菌分类中具有优势。
论文发表在《Journal of Pathology Informatics》(病理信息学杂志)。研究背景方面,真菌在生态系统中具重要分解作用,但致病性真菌感染对免疫缺陷人群等构成威胁,侵袭性真菌感染发病率上升且抗真菌耐药问题突出。传统诊断依赖临床真菌学家对患者样本进行直接显微镜检查(DE)与培养(需28–31天),存在灵敏度与特异性低、耗时长、成本高、易假阴性、人员短缺等局限,亟需快速精准替代方案。研究人员据此开展基于深度学习的显微真菌图像自动化分类研究。主要研究内容为:构建稳健预处理与数据增强流程以提升泛化能力;设计新型ReLULeaky激活函数(融合ReLU与Leaky ReLU,引入可学习阈值T与固定负斜率α=0.01,阈值随反向传播更新);将预训练ResNet34模型全部ReLU层替换为ReLULeaky,采用迁移学习并进行分层微调,使用one-cycle学习率策略与AdamW优化器;在DeFungi数据集(含Candida albicans(H1)、Aspergillus niger(H2)、Trichophyton rubrum(H3)、Trichophyton mentagrophytes(H5)、Epidermophyton floccosum(H6)五类真菌显微图像,经原始图像缩放至3×500×500、分块、筛选得9114张3×300×300图像,类别均衡)上训练评估;采用GradCAM(Gradient-weighted Class Activation Mapping)、GradCAM++、LIME(Local Interpretable Model-agnostic Explanations)进行可解释性分析;通过两种数据划分(FastAI实现80%训练/20%验证,TensorFlow实现76.5%训练/13.5%验证/10%测试)与5折交叉验证实验。结论为:微调ReLULeaky-ResNet34取得最高准确率95.39%(FastAI)、94.08%(TensorFlow),F1-score 96%、精确率97%,AUC 99.40%;优于EfficientNetB3、XceptionNet、ResNet50、DenseNet121、VGG16及BiT、ViT+ResNet50等对比模型;ReLULeaky显著优于ReLU、Leaky ReLU、ELU(Exponential Linear Unit)、SELU(Scaled Exponential Linear Unit)、GELU(Gaussian Error Linear Unit)、Swish等单一激活函数及多种自定义混合激活函数;逐层可学习阈值优于全局可学习阈值、固定阈值等策略;混淆矩阵与分类报告显示H1、H5、H6类性能近完美,H2与H1间因形态相似有少量混淆,H3略低;GradCAM/GradCAM++/LIME热图证实模型关注菌丝结构、孢子排列等生物学显著形态区域,具备临床可解释性;5折交叉验证均值准确率95.05%±0.55%,模型稳定。意义在于为真菌自动化诊断提供高精度、可解释深度学习方案,辅助临床与农业真菌学诊断。关键技术方法包括:数据集采用DeFungi(源自哥伦比亚电显微镜与微分析实验室提供的显微真菌图像,经缩放至3×300×300、分块筛选得9114张均衡五类图像);预处理含归一化(T′=(T?μ)/σ);数据增强采用垂直翻转(概率0.5)、随机旋转(±15°)、缩放(1–1.3倍)、亮度对比度调整(概率0.75,±20%);模型为预训练ResNet34替换所有ReLU为所提ReLULeaky(f(x)=x若x>T,否则αx,T为层级可学习参数,α=0.01固定,反向传播更新T);迁移学习采用ImageNet预训练权重,微调时逐步解冻层,优化器为AdamW,学习率调度为one-cycle policy(最大lr=0.002),批次32,训练32轮;可解释性用GradCAM、GradCAM++、LIME;评估用80%/20%二分、76.5%/13.5%/10%三分及5折交叉验证,指标含准确率、精确率、召回率(recall)、F1-score、AUC、混淆矩阵。
研究结果如下:
Methods and materials(方法与材料):整体流程为加载DeFungi数据集,图像预处理(缩放至3×300×300、归一化),数据增强(垂直翻转、旋转±15°、缩放1–1.3、亮度对比度调整),替换ResNet34所有ReLU为ReLULeaky(T层级可学习初始化0.1,α=0.01),迁移学习微调(one-cycle lr、AdamW),输出全连接分类层,最后应用GradCAM/GradCAM++/LIME解释。数据集描述:DeFungi含五类真菌显微图像,原始3000张经处理得9114张3×300×300均衡样本(C. albicans(H1)、A. niger(H2)、T. rubrum(H3)、T. mentagrophytes(H5)、E. floccosum(H6))。图像预处理:原始3×500×500缩放至3×300×300(X=x/Woriginal×Wresized,Y=y/Horiginal×Hresized),转PyTorch张量T∈Rc×H×W,归一化T′=(T?μ)/σ,标签按目录提取;数据划分用FastAI的ParentSplitter做80%训练/20%验证,TensorFlow做76.5%训练/13.5%验证/10%测试。数据增强:垂直翻转I′=flip(I,axis=y)概率0.5;旋转I′=rotate(I,θ),θ~U(?15°,15°));缩放I′=zoom(I,z),z~U(1.0,1.3);亮度对比调整概率0.75,±20%。所提微调ResNet34模型:输入3×300×300,首层7×7卷积步长2、批归一化(Batch Normalization)、ReLULeaky激活、最大池化后接四级残差层(Layer1–Layer4特征图64→512,核3×3),残差块内用ReLULeaky;训练用one-cycle lr策略(峰值0.002),动量逆相关调度,先冻主干训5轮再逐步解冻微调,优化器AdamW,权衰正则。所提ReLULeaky激活函数:定义为f(x)=x若x>T,否则αx(α=0.01固定,T为可学习参数初始化0.1);前向按此计算,反向传播?a/?T=?1若x≤T否则0,T更新为T←T?η·(1/|B|)∑(?L/?a·?a/?T);算法实现递归遍历预训练ResNet34将所有ReLU层替换为ReLULeaky模块;批计算时对每张量元素按阈值判断;相比ReLU避免死神经元(dying ReLU)问题,保留弱响应梯度,提升特征传播。迁移学习:采用ImageNet预训练ResNet34权重作通用特征提取器,冻结早期层后在真菌数据微调全连接层与深层,逐步解冻防过拟合。GradCam方法:计算类别得分yc对卷积层特征图Ak的梯度αkc=(1/(h×w))∑i,j?yc/?Aijk,加权求和LGradCAMc=ReLULeaky(∑kαkcAk),上采样得热力图覆盖原图显示关注区。GradCam++方法:引入二阶梯度细化权重聚合,更细致捕捉多实例与细节特征。LIME方法:图像分超像素(superpixels),随机掩蔽部分超像素生成邻样本,用高斯核exp(?d(x,x′)2/σ2)加权原图距离,拟合局部线性模型g(z)=β0+∑βjzj,系数βj表示超像素重要性,可视化贡献区域。FastAI库:基于PyTorch的高层深度学习库,用DataBlock API加载数据、ParentSplitter划分、Learner封装模型与one-cycle回调,仅支持训练/验证二分(故额外用TensorFlow做三分)。
Results and discussion(结果与讨论):实验设置:FastAI与TensorFlow实现,Python环境,硬件为Intel Core i3-8746U 2.30GHz CPU 8GB RAM与Kaggle GPU P100,批次32,epoch 32,lr=0.002,AdamW,one-cycle策略。Performance metrics(性能指标):损失曲线(图13)显示训练与验证损失均快速下降并收敛,无显著过拟合;TensorFlow三分划分的训练/测试准确率曲线(图14)显示训练准确率稳定上升、测试准确率趋近94%且波动小,损失同步下降。ROC曲线(图15)五类AUC近1(总体99.40%),远优于随机基线。混淆矩阵(图16a FastAI二分):H1正确867(召回0.98),少数误判H2;H2正确417(召回0.89),主要误判H1;H3正确153(召回0.93);H5正确160(召回0.98);H6正确142(召回0.96);非对角混淆极少。图16b TensorFlow三分:H1正确653(召回0.98),H2正确约307(召回0.86,41误判H1),H3正确105(召回0.91),H5正确103(召回0.94),H6正确119(召回0.98)。分类报告表1(FastAI):精度(precision)H1=0.94、H2=0.96、H3=0.96、H5=0.99、H6=0.99;召回H1=0.98、H2=0.89、H3=0.93、H5=0.98、H6=0.96;F1-score H1=0.96、H2=0.93、H3=0.95、H5=0.99、H6=0.97;宏平均F1=0.96,加权平均F1=0.95,准确率95%。表2(TensorFlow):精度H1=0.93、H2=0.95、H3=0.95、H5=0.94、H6=0.98;召回H1=0.98、H2=0.86、H3=0.91、H5=0.94、H6=0.98;F1 H1=0.95、H2=0.91、H3=0.93、H5=0.94、H6=0.98;准确率94%,宏F1=0.94。随机样本预测可视化(图17)显示预测与真实标签匹配(绿色标注),仅一例H3误判(红标),证模型单图级可靠。K-fold cross-validation(K折交叉验证):5折表3准确率分别为0.9435、0.9462、0.9512、0.9594、0.9523,均值0.9505,标准差0.0055;F1均值0.9503±0.0055;图18准确率曲线训练近99%、测试近95%,阴影小示稳定,损失收敛至约0.2无飙升,证泛化良好。Performance analysis of model(模型性能分析):表4对比多模型(TensorFlow三分下ReLULeaky-ResNet34准确率94.08%、F1 94%、精度95%;FastAI二分下95.39%、96%、97%),高于EfficientNetB3(88.43%)、XceptionNet(88.37%)、ResNet50(82.89%)、DenseNet121(74.55%)、VGG16(68.26%)、MobileNet(36.64%)、FixMatch(58.02%)、Mean Teacher(48%)、MixMatch(61.05%)等。表5与已有研究比:ReLULeaky-ResNet34 95.39% > MobileNetV3(92.89%)、ResNet101(93%)、MeFunX(92.49%)、ViT+ResNet50(90.13%)、BiT(87.32%)、DenseNet121(91.01%)、ResNet50原有(85%)、ORDAF(77.44%)。表6单一激活函数对比(ResNet34上):ReLULeaky准确率95.39%、F1 96%、精度97%最优;ReLU 93.92%/94%/94%;Leaky ReLU 93.22%/93%/94%;ELU 90.56%/92%/94%;SELU 88.69%/91%/93%;GELU 90.83%/92%/93%;Swish 88.59%/90%/92%;Sigmoid 68.73%/64%/67%。表7自定义混合激活:ReLULeaky(可学习阈值)最优;ReLU+Leaky ReLU 93.95%/94%/95%;ReLU+ELU 90.56%/92%/93%;LRDT(Leaky ReLU Dynamic Threshold)90.8%/92%/93%;LRS(Leaky ReLU+Swish)86.34%/87%/90%;Leaky Softmax极差(49.42%/17%/19%);ReLU+SELU 86.45%/88%/91%。表8阈值策略:逐层可学习阈值最优(95.39%/96%/97%);全局可学习阈值(94.35%/95%/97%);指数移动平均(94.62%/95%/96%);自适应阈值带可学习缩放(92.59%/94%/95%);输入均值(91.27%/92%/93%);固定阈值(76.96%/78%/85%)。表9跨医疗影像数据集(阿尔茨海默病四类、脑肿瘤三类、乳腺癌二类、宫颈癌五类、CT肾脏二类、肺结肠癌五类)用ResNet34测各激活函数F1与精度:ReLULeaky在大多数类取得近1.00F1/精度,优于ReLU、Leaky ReLU、ELU、SELU、GELU、Sigmoid、Tanh,证通用性。讨论部分总结:研究人员指出模型虽取得SOTA性能,但仍存在局限——ResNet34对更复杂数据集可能特征捕获不足;虽用二分、三分、5折交叉验证缓偏与数据泄露,仍需外部独立队列验证;ReLULeaky仅与部分标准/自定义激活对比,未涵盖更多最新自适应激活;可解释性目前定性,需真菌学家/病理专家定量验证。结论翻译:鉴于真菌感染诊断时效与准确性的重要意义,研究人员开发并全面评估了该深度学习流水线用于自动化显微真菌分类。通过在ResNet34骨干中集成所提带可学习阈值的ReLULeaky激活函数进行微调,在五类真菌上取得95.39%准确率与99.4%AUC的SOTA性能。全面预处理、数据增强与类别均衡确保鲁棒特征学习,AdamW优化促快速收敛与泛化。GradCAM、GradCAM++、LIME可解释性验证模型关注生物学显著结构,提升预测可信度。实验表明该方法优于VGG16、ResNet50、InceptionV3等传统CNN。综上,该方法不仅预测准确,且提供精确可解释见解,是加速真菌学诊断及推动医学与农业真菌学研究的 promising工具。