WOAENet：基于鲸鱼优化算法集成深度学习与软投票的子宫癌MRI诊断模型

《Frontiers in Artificial Intelligence》：WOAENet: a whale optimization-guided ensemble deep learning with soft voting for uterine cancer diagnosis based on MRI images

【字体：大中小】 时间：2025年10月21日 来源：Frontiers in Artificial Intelligence 4.7

编辑推荐：

　　本文提出一种基于鲸鱼优化算法（WOA）的集成深度学习框架WOAENet，通过优化MobileNetV2、DenseNet121和轻量视觉模型（LVM）的超参数，结合软投票集成策略，实现了子宫癌MRI图像的三分类（正常/良性/恶性）。该模型在King Abdullah大学医院数据集上达到88.57%的准确率、94.29%的特异性和88.54%的F1分数，显著优于单一预训练模型，为妇科肿瘤智能诊断提供了高效可靠的解决方案。

2 Materials and methods

本研究遵循完整的深度学习流程框架WOAENet（基于鲸鱼优化算法的集成网络），通过WOA算法优化子宫图像分类。如图1所示，构建了三个候选模型：MobileNetV2、DenseNet121和自定义轻量视觉模型（LVM）。每个模型包含可调超参数，如学习率、丢弃率、密集单元数、权重衰减、激活函数和优化器类型。这些组件均通过鲸鱼优化算法（WOA）进行超参数调优，该算法通过在11维归一化超参数空间上进行迭代的基于群体的搜索来最小化验证损失。搜索在少量迭代和鲸鱼数量下停止，以平衡效率与性能。所有模型均在子宫MRI数据集上训练。性能评估期间，在WOA优化过程中，候选模型仅训练少量周期，随后根据找到的最佳超参数对所有候选模型进行进一步训练。训练完成后，WOAENet应用软投票集成方案对各个模型预测的类别概率进行平均，以提高鲁棒性和分类准确性。

2.1 Data acquisition

本研究获得约旦科技大学King Abdullah大学医院机构审查委员会（IRB）批准。放射科医生回顾性诊断了2020年初至2024年11月初四年间收集的MRI数据。图像提取和数据集组装在2024年12月至2025年3月期间完成，期间匿名化和预评估图像被组织成结构化数据集。数据集包含从450名18至85岁女性患者收集的1,814张MRI图像。病例分为三个诊断类别：正常、良性和恶性，每个病例由三个成像平面表示——矢状面、冠状面和轴向面。所有图像均使用Ingenia Ambition 1.5T Sand MRI扫描仪获取，并以720×720像素的标准分辨率导出为JPG格式。为确保分类准确性，KAUH妇产科医生独立审查了成像数据。表1显示了KAUH-UCM数据集的分布，每个组的代表性样本如图2所示。

2.2 Preprocessing

在医学图像分析中，特别是在通过MRI诊断子宫癌时，预处理对于建立直接影响分类模型准确性和鲁棒性的坚实基础至关重要。此阶段涉及处理输入图像分辨率、编码类别标签和分层数据分割以保持类别平衡。为实现类别平衡（每类699张图像），我们仅对训练集应用有针对性的数据增强技术——包括剪切、缩放和水平翻转——以合成增加 underrepresented 类别（正常和恶性）的样本，而不复制现有图像，避免潜在过拟合。为防止数据泄漏并确保泛化性，数据分割在患者级别进行。来自不同扫描仪和临床站点的MRI图像在大小、分辨率和强度分布上存在可变性。为标准化CNN的输入，所有图像调整为224×224固定像素，与流行的预训练架构（如MobileNetV2和DenseNet121）兼容。调整大小操作如公式1所示。

除了调整大小，像素强度值通过缩放因子1/255归一化到[0,1]范围，这种归一化确保训练期间的数值稳定性，并帮助优化算法更有效地收敛，如公式2所示。

在医学图像分析中，特别是子宫癌MRI诊断中，过拟合减少和通过主要数据增强增加的模型鲁棒性位于实时训练导向的干预措施中，这些干预措施在Keras的Image Data Generator下考虑。应用的增强参数包括剪切变换（剪切强度限制为0.2以模拟轻微仿射失真）、轻微形状不规则或缺陷、随机缩放（在图像的随机区域缩放以帮助模型识别不同尺度的局部肿瘤特征）、水平翻转（允许随机水平翻转，模型学习空间不变特征，即识别彼此对称的模式）。本质上，这些增强为训练数据生成巨大的多样性和可变性，并增强模型对未见案例的泛化。每个MRI扫描类别的三个类别具有临床相关性：正常、良性肿瘤或恶性肿瘤，类别标签被转换为整数索引以供模型使用，如公式3所示。

为避免系统偏差并保证跨类别的表示平衡，整个数据集分为训练、验证和测试子集，同时保持相同的类别分布（分层分割）。训练集D_train由完整数据的80%组成。验证集D_val包含10%。测试集D_test包含10%。如果N_k是类别k中的样本数，则分割遵循公式4和5。

每个子集因此是整个数据集的真实表示，确保不对多数类别产生偏差，从而进行可信的评估指标。子宫肿瘤MRI图像的预处理包括统一调整大小、像素归一化、高级数据增强、无误标签编码和平衡数据分割。这些步骤共同丰富了模型稳定性，改善了泛化，并为下游分类任务奠定了坚实基础。

2.3 Whale optimization algorithm (WOA) for hyperparameter tuning

鲸鱼优化算法（WOA）在本研究中被用作一种自然启发的元启发式优化工具，用于自动调整深度学习网络的超参数，以从MRI图像分类子宫肿瘤。准确的分类不仅取决于非常高容量的模型，而且更重要的是取决于超参数的选择，如学习率、批量大小、正则化强度、丢弃率以及架构参数（如卷积滤波器数量或密集单元数）。这些超参数极大地影响模型的泛化能力，尤其是在处理复杂、高维医学成像数据（如MRI扫描）时。

传统工具（如网格搜索方法或手动检查）在现代背景下几乎变得不可能，仅仅因为禁止的计算成本困扰着它们。WOA因此通过智能探索高维参数空间来解决问题，以座头鲸在自然界中寻找食物的行为为灵感。

2.3.1 Motivation for metaheuristic-based optimization

在MRI肿瘤分类中，面临一系列挑战：解剖结构的高度可变性、有限的数据集以及强烈泛化模型的需求。在相关应用中，超参数与性能呈现非线性相关性、相互依赖性，这使得暴力方法实际上无能为力。因此，像WOA这样的元启发式算法被配备以确保逃离局部最小值，并在不需要跟踪梯度信息或凸假设的情况下执行高效的全局搜索。

2.3.2 Mathematical modeling of WOA

鲸鱼优化算法（WOA）模拟座头鲸的泡泡网狩猎策略，涉及三个主要机制：包围猎物、泡泡网攻击（利用）和搜索猎物（探索）。这里，解空间由R^d定义，其中d是需要优化的超参数数量。群体中的每条鲸鱼代表一个可能的解向量X? ∈ R^d。

包围猎物（利用），鲸鱼将当前最佳解视为猎物，并相应地更新其位置。其中X?*是迄今为止获得的最佳解的位置。X?(t)是鲸鱼的当前位置。A? = 2a·r?₁ - a，C? = 2·r?₂是系数向量，a是从2线性减少到0的因子，r?₁, r?₂ ～ U(0,1)是随机向量，如公式6、7所示。当鲸鱼试图向最佳解移动时，该机制遍历强化（局部搜索）。

泡泡网攻击策略（利用）这模拟了螺旋形的泡泡网行为。其中b是定义对数螺旋形状的常数（通常设置为1），l ～ U[-1,1]是随机数。算法以概率p ∈ [0,1]在螺旋更新和包围之间随机选择，如公式8所示。这种概率行为增强了搜索多样性，并模拟了鲸鱼在探索和利用之间变化的自然行为。

搜索猎物（探索）如果|A?| ≥ 1，鲸鱼随机选择另一条鲸鱼并更新其位置。这里，X?_rand是随机选择的鲸鱼。这种机制确保全局搜索空间的探索以避免过早收敛，如公式9、10所示。

2.3.3 Fitness function for hyperparameter optimization

每条鲸鱼（候选超参数集）的适应度使用部分训练策略进行评估，其中深度学习模型（MobileNetV2、DenseNet121或LVM）训练有限周期数（10个周期），并记录验证损失作为目标函数。其中X? ∈ R¹¹是超参数向量，L_val是验证损失，θ是模型参数，如公式11所示。这种表述允许WOA识别最小化验证损失的超参数配置，从而在未见MRI扫描上最大化泛化。

2.3.4 Parameter encoding and normalization

鲸鱼位置向量X?中的每个维度对应一个超参数。为确保搜索的可扩展性和均匀性，所有超参数归一化到[0,1]并在每次适应度评估时相应解码。例如学习率：lr = 10^-5+3x₀，如公式12所示。丢弃：dr = 0.1 + 0.4x₂，如公式13所示。密集单元：du = 64 + 448x₃，如公式14所示。

为了适当调整深度学习架构以从MRI图像进行子宫肿瘤分类，使用WOA在多维超参数空间上执行搜索。表2总结了使用WOA优化的超参数及其相应的搜索范围和编码策略。该集合包括学习率、批量大小、丢弃率、密集单元数以及卷积滤波器（特定于LVM模型），以及分类变量（如优化器和激活函数）。归一化的搜索空间映射到[0,1]并在每次适应度评估时相应解码，以允许彻底调查配置景观。

2.3.5 Computational efficiency and convergence

由于深度学习算法具有更多的计算要求，鲸鱼数量（2-5）和迭代次数（5-10）基于初步试验选择，旨在最小化计算开销同时保持分类性能。这些值被证明足以稳定收敛，由于有限的特征维度和骨干网络的预训练性质。优化过程要么在达到最大迭代次数时终止，要么在连续几次迭代中未观察到验证损失改善时终止（早停）。WOA由于其良好的探索和利用平衡以及适用于不可微和嘈杂目标空间而保持高效，这些空间通常表征深度学习超参数景观。收敛行为通过适应度曲线监控。这里T表示总迭代次数，如公式15所示。这样的曲线提供了所采取的优化步骤序列的洞察以及搜索过程的稳定性。

将WOA集成到超参数调整管道中，结果是一个更可扩展和灵活的系统，能够自动生成优化的深度学习模型，用于从MRI图像分类子宫肿瘤。与穷举的网格搜索和手动试错方法相比，WOA显著提高了模型性能，同时改善了泛化并最小化了训练成本。这在医学成像中尤为重要，因为诊断可能取决于脑力消耗的程度。图3表示了鲸鱼优化算法（WOA）的基本步骤。

2.4 Model architectures

采用三种CNN架构——MobileNetV2、DenseNet121和内部轻量视觉模型（LVM）——基于MRI图像分类子宫癌。每种架构都被参数化，并根据使用WOA调整的超参数动态实例化，包括学习率、丢弃率、密集单元、激活函数和正则化强度。因此，设计允许模型对领域特定数据（如需要仔细处理空间和结构特征的MRI扫描）的灵活性、可扩展性和适应性。

2.4.1 MobileNetV2 model

MobileNetV2是一种轻量级深度卷积神经网络架构，专门为移动和嵌入式平台上的效率而设计，同时在图像分类问题上保持良好的性能水平。考虑到使用MRI图像进行子宫肿瘤分类，MobileNetV2因此作为一个强大的骨干网络，因为它是唯一平衡计算效率和表示能力的网络，这在具有受限注释数据的医学图像分析中至关重要。MobileNetV2通过引入两个关键创新改进了其前身：具有线性瓶颈的倒置残差和深度可分离卷积。MobileNetV2中的每个块由倒置残差结构定义，其中输入和输出是薄瓶颈层，中间扩展层具有高维度。因此，特征以低计算成本得以保留。

设x ∈ R^H×W×C为输入张量，其中H、W和C分别是高度、宽度和通道数。每个MobileNetV2瓶颈块应用以下变换：扩展（逐点卷积）其中t是扩展因子（通常t=6）如公式16所示，深度卷积如公式17所示，投影（线性逐点卷积）如公式18所示，和残差连接如公式19所示。这种倒置残差块允许网络保持梯度流，保留空间特征，并减少参数和操作的数量。

本研究中使用WOA进行模型定制，MobileNetV2通过设置include_top = False和冻结预训练层（在ImageNet上初始化的权重）用作特征提取器。提取的特征通过全局平均传递。这将每个通道减少到单个值，降低了过拟合风险和模型复杂性，如公式20、21所示。密集层（WOA优化单元u ∈ [64,512]）其中?是由WOA选择的激活函数（ReLU、LeakyReLU或ELU）。丢弃层（WOA优化率d ∈ [0.1,0.5]）以减少过拟合，如公式22、23所示。Softmax分类层其中K=3是肿瘤类别数（良性、恶性、正常）。

网络的训练配置使用Adam优化器或替代方案（SGD、RMSprop）根据WOA确定进行编译。使用的损失函数是稀疏分类交叉熵，其中y是真实类别索引。学习率、批量大小、正则化权重衰减和其他超参数由WOA元启发式动态选择，确保训练期间的模型鲁棒性和最优收敛。图4说明了模型的工作架构，如公式24所示。

2.4.2 DenseNet121 model

DenseNet121是一种密集连接的卷积网络深度结构架构，设计用于在不相交的数据社区（如子宫MRI）中最大化特征重用和猖獗的梯度传播。在这项工作中，DenseNet121用作骨干网络，以提取区分良性、恶性和正常子宫肿瘤的高级特征进行分类。

与其他传统CNN架构（其中每层仅从其前一层获取输入）相反，DenseNet以前馈方式将每层连接到所有其前面的层。这意味着任何层l的实际输入由所有前面层x₀, x₁, ..., x_l-1的特征图组成。H_l(·)表示一些复合函数操作（形式为批归一化→ReLU→卷积）。[·]表示连接而不是求和，如公式25所示。通过使用密集连接，这加强了通过网络的梯度流。此外，它鼓励特征重用，从而减少了参数总数。因此，这也缓解了梯度消失的问题，特别是对于非常深的网络（如DenseNet121）。它以一个卷积和池化层开始。然后是四个具有过渡层（1×1 conv + 2×2平均池化）的密集块。最后，它使用全局平均池化和一个完全连接的softmax层。它们分布在四个密集块中，分别为6、12、24和16层。

对于特征提取和为此分类任务的定制，我们利用在ImageNet上预训练的DenseNet121作为冻结特征提取器（include_top = False）。最后一个卷积块的输出通过一个GlobalAveragePooling2D层，其中z_c是通道c的池化特征，x_i,j,c是通道c中空间位置(i,j)的激活，H和W是特征图的高度和宽度。此操作减少了空间维度，产生一个大小等于通道数的向量，改善了泛化并减少了过拟合，如公式26所示。

WOA优化的分类头将提取的特征传递通过一个分类头，该头使用WOA动态参数化。密集层?激活函数（ReLU、LeakyReLU或ELU），H₁ ∈ R^u×d：权重矩阵（u ∈ [64,512]），e来自DenseNet骨干的池化特征，如公式27、28所示。丢弃p ∈ [0.1,0.5]由WOA优化的丢弃率。Softmax输出层K=3子宫肿瘤类别数，o_k对应类别k的logit。损失函数y_k是one-hot编码的真实标签，如公式29、30所示。优化器在{Adam、SGD、RMSprop}中选择根据WOA优化索引。正则化L2权重衰减（搜索范围10^-6到10^-3）应用于每个可训练密集权重，如公式31所示。

DenseNet121在从MRI进行子宫肿瘤分类时具有许多优势。增加的特征传播能够改进组织纹理和病变边界的编码。更少的参数意味着在给定医学数据上更好的训练，因为它更少。基于WOA的参数化有助于适应架构，因此它对手头的数据集泛化最佳。图5说明了模型的工作架构。

2.4.3 Lightweight vision model (LVM)

对于计算机器有限或较小数据集的场景（ mostly found in medical imaging facilities），本研究引入了一个自定义构建的轻量视觉模型（LVM）。LVM是一个模块化、可参数化的卷积神经网络，设计用于从MRI图像进行子宫肿瘤分类。虽然它可以使用大规模预训练模型，但从头训练LVM允许它直接微调自己于子宫MRI图像固有的纹理和对比模式。

LVM架构遵循典型的分层特征提取范式，具有三个卷积+池化块串联排列，后跟一个全连接分类器。这允许提取低级特征（如边缘和纹理）以及高级特征（涉及形状和边界，对肿瘤检测重要）。每层中的参数，如滤波器数量、激活函数和丢弃率，都受基于鲸鱼优化算法（WOA）的优化，以便可以实现最佳验证结果。这确保了分类中简单性和鲁棒性之间的权衡，特别是在医学领域中考虑不平衡或小数据集时。

网络架构和方程让输入图像X ∈ R^224×224×3为RGB MRI切片。模型由卷积块1组成，F₁ ∈ [16,96]：滤波器数量（WOA调整）?：激活函数（ReLU / LeakyReLU /ELU），如公式32、33所示。输出形状112×112×F₁。卷积块2 F₂ ∈ [32,192] WOA优化，如公式34、35所示。卷积块3 F₃ ∈ [64,384]：WOA优化，输出来自A⁽³⁾ ∈ R^28×28×F₃，如公式36、37所示。

在LVM的最终卷积块之后，输出特征图被展平为一维向量以用于分类目的。该展平特征向量然后传递通过一个全连接密集层，其输出单元数被视为超参数，范围从64到512。这里使用的激活函数通过WOA选择；在不同场景下，它可以是ReLU、Leaky ReLU或ELU。丢弃层包含在密集变换之后以避免过拟合。丢弃率设置在0.1–0.5范围内。最终分类通过softmax层完成，以产生三个子宫肿瘤类别的概率分数：良性、恶性和正常。预测类别将是具有最高softmax分数的类别。

模型的训练通过最小化预测概率分布和真实类别标签之间的稀疏分类交叉熵损失函数来实现。此外，L2正则化（权重衰减）应用于网络的每个可训练层，系数λ也由WOA优化。正则化通过惩罚大权重幅度来防止过拟合，从而鼓励模型表现更一般。LVM for Medical Imaging完全可定制。您的WOA将允许您适应滤波器、激活函数、丢弃率或密集单元。该模型是轻量级的，具有最小的内存占用，使其适用于在临床环境中开发实时诊断和移动应用程序。它还直接从MRI数据学习，而没有由预训练自然图像数据集引起的偏差。LVM是深度预训练模型的灵活和可解释的替代方案，同时促进领域特定调整以优化子宫肿瘤分类的准确性和资源使用。图6说明了模型的工作架构。

2.5 Ensemble via soft voting

提出的集成学习策略基于软投票，旨在增强分类性能、提高稳定性并增加在从MRI图像自动检测子宫肿瘤中的诊断鲁棒性。集成模型利用不同分类器之间的多样性优势，实现比任何单个分类器更高的泛化和准确性。在框架内，三个不同的CNN——MobileNetV2、DenseNet121和自定义构建的轻量视觉模型（LVM）——分别使用鲸鱼优化算法进行训练和优化，然后通过软投票组合，以给出最终分类输出。

每个模型输出输入图像的类别概率分布。设集成中有M个模型；那么模型m预计产生预测概率向量p^(m) = [p₁^(m), p₂^(m), ..., p_C^(m)]，其中C表示类别总数：在这种情况下C=3（良性、恶性、正常），且∑_k=1^C p_k^(m) = 1。软投票机制确定来自所有模型的每个类别的平均预测概率，最终预测类别y?由平均概率的索引最大值给出，如公式38、39所示。这确保每个模型的输出在最终决策中有发言权，并且类别概率对应于集成的头部计数置信度。

泛化通过从不同架构构建集成而增强，从而减少方差和模型特定过拟合。更大的诊断置信度软投票保留概率信息，而双重检查添加了一个安全层以模拟专家共识。真实世界鲁棒性处理噪声、不同肿瘤形态和细微对比差异，这些在子宫组织的MRI扫描中常见。该集成系统为子宫癌分类提供了临床质量的精确度和可靠性权衡，具有WOA调整的模型和双重验证。

软投票集成结合了来自MobileNetV2、DenseNet121和LVM的预测类别概率。对于每个输入MRI扫描，三个模型独立生成类别（正常、良性、恶性）的概率分布。这些概率然后在模型之间以相等权重平均，产生共识概率分布。最终分类分配给具有最高平均概率的类别。该策略利用了个体模型的互补优势，减少了对任何单个模型的偏差，并显著提高了整体系统的鲁棒性和准确性，如图7所示。

3 Results analysis

3.1 Experimental setup and measurement

为了评估和验证提出的方法，数据集分为三组：10%用于测试，10%用于验证，80%用于训练。测试使用图像作为输入进行。几个统计指标，如真阴性（TN）、真阳性（TP）、假阴性（FN）和假阳性（FP），可用于评估提出技术的有效性。本节提出了几个用于评估提出模型和预训练模型在使用MRI图像检测子宫癌的有效性的指标。各种评估指标的数学计算在以下公式40-44中呈现。

为了更深入地探究模型准确性，置信区间（CI）由公式45推导。

给定准确性均值，95%置信临界值以及来自测量误差的标准偏差，如公式46所示。

通过纳入此类评估，提出的模型提供了跨良性、恶性和正常类别的可靠图像分类，从而显著贡献于医学诊断。

3.2 The hyperparameter configuration

表3比较了不同神经网络的超参数。丢弃率、输入层、优化技术和其他相关变量都包含在分析中。这些是产生最佳性能的最佳超参数，经过多次试验选择直到获得最佳结果。

WOAENet是一个软投票集成，由三个深度学习架构组成：MobileNetV2、DenseNet121和自定义设计的轻量视觉模型（LVM）。这些子模型使用鲸鱼优化算法（WOA）独立优化调整。这种算法是元启发式优化的应用，用于通过同时利用和探索搜索空间来找到近似或接近最优的超参数配置。

集成模型使用相同的预处理维度224×224×3，以具有标准输入图像大小并实现架构之间的兼容性。MobileNetV2和DenseNet121都经历了ReLU激活；它们分别以45和65的批量大小以及1.95×10^-4和7.26×10^-4的学习率进行训练。

LVM旨在计算效率，具有LeakyReLU激活、133个密集单元以及跨层分别具有31、55和93个滤波器的卷积块。VGG16和VGG19也被独立评估，并分别以0.25和0.30的丢弃率以及1.2×10^-4和1.5×10^-4的学习率进行训练。Adam优化器用于LVM和VGG16，而SGD由于基于动量的更新被考虑用于MobileNetV2和VGG19。权重衰减正则化应用于所有模型以改进泛化。在WOAENet内部，优化的模型表示了基于元启发式的超参数调整可以提供的力量，导致在多类子宫MRI图像数据集上的分类性能和鲁棒性增强。

3.3 Model performance evaluation and analysis

本研究旨在利用先进的深度学习技术开发一个有效的子宫癌诊断模型。它引入了一个称为WOAENet的集成模型，该模型依赖WOA算法来微调模型参数。该框架包括一组深度神经网络模型，包括MobileNetV2、DenseNet121和一个自定义CNN模型（LVM），其结果使用软投票组合以提供最终的高精度预测。提出的WOAENet方法与预训练的深度学习模型（如MobileNetV2、DenseNet121、LVM、VGG16和VGG19）使用KAUH-UCM数据集进行比较。

本研究中的所有实验均在基于Python的笔记本电脑上进行，配备i7-12700k处理器、NVIDIA GeForce RTX 4060Ti显卡、8GB RAM、48GB存储和2TB SSD。表4显示了所有模型和WOAENet网络在真实KAUH-UCM数据集上的性能，该数据集首先从King Abdullah大学医院收集用于子宫癌诊断。结果显示，WOAENet以88.57%的准确率 outperformed 预训练模型，而MobileNetV2达到75.24%的准确率。DenseNet121模型达到79.76%的准确率，而LVM模型达到74.76%的准确率。这表明，提出的方法WOAENet提供了高准确性和在子宫癌检测方面相比MobileNetV2、DenseNet121和LVM的显著改进。鲸鱼优化算法（WOA）通过智能搜索超参数的最佳组合（如学习率、批量大小、密集层中的单元数和丢弃率）来提高深度学习模型的性能。此外，测试了VGG16和VGG19模型，

热点排行