基于层次结构的视觉变换器，结合BlackMamba MoE注意力机制和MISA优化算法，用于实现高保真度的胰腺肿瘤分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：Hierarchical vision transformer with BlackMamba MoE attention and MISSA optimisation for high fidelity pancreatic tumour segmentation

【字体：大中小】 时间：2026年02月18日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　精准定位胰腺肿瘤在对比增强CT中仍具挑战，传统U-Net和纯Transformer存在边界模糊和计算负担过重问题。本文提出自适应多尺度分层视觉Transformer（MERIT）结合BlackMamba MoE专家注意力与MISSA元优化算法，在 NIH 和 MSD 数据集上实现Dice 95.9%-96.0%、HD95<2mm的优异性能，参数量仅增加17%且推理速度达0.22秒/层，为临床实时应用提供高效解决方案。

Yakaiah Komira|S. Karthikumar

印度哥印拜陀JCT工程与技术学院电气与电子工程系

摘要

在增强型CT中精确定位胰腺肿瘤仍然是一个紧迫的临床目标，然而现有的U-Net和纯变换器方案存在边界模糊和计算量大的问题。本文介绍了一种自适应多尺度分层视觉变换器（MERIT），该变换器通过BlackMamba专家混合（MoE）注意力机制得到增强，并通过多策略集成麻雀搜索算法（MISSA）进行调优。MERIT实现了高效的多尺度token融合，BlackMamba MoE学习了能够识别异质边界、血管和实质的专家模型，而MISSA则负责解码器深度和宽度的超参数搜索，同时标准反向传播算法优化网络权重。在NIH胰腺CT和MSD胰腺数据集上，所提出的框架分别取得了95.9%和96.0%的Dice分数，以及小于2毫米的HD₉₅精度，其性能优于传统的CNN和变换器基线模型，且计算开销相当。消融研究和跨数据集分析表明，这些优势源于分层视觉变换器、专家注意力机制和生物启发式元优化方法的协同作用，表明该框架非常适合快速、临床可用的胰腺肿瘤分割任务。未来的工作将把这种方法扩展到半监督学习领域，为快速、临床可用的胰腺肿瘤分割手术导航铺平道路。

引言

在增强型计算机断层扫描（CT）图像中精确分割胰腺肿瘤是早期手术干预、新辅助治疗计划和纵向疾病监测的关键。胰腺复杂的解剖结构位于胃、十二指肠和主要血管之间，且与周围软组织的对比度较低，这使得手动逐体素标记变得困难、耗时，并且容易受到观察者差异的影响[1]。自动化分割系统有望缓解这一瓶颈，加快临床工作流程，并标准化肿瘤体积和切除边缘距离等定量生物标志物。然而，这些系统的临床实用性取决于亚毫米级边界的准确性：分割不足可能导致遗漏微观浸润，而过度分割可能会增加不必要的手术切除范围，从而影响内分泌功能[2]。因此，设计能够在胰腺恶性肿瘤的异质CT表现中同时保留细微边缘和整体形状一致性的模型仍然是一个未解决的挑战。经典的U-Net架构通过结合对称的编码器-解码器路径和跳跃连接，实现了从粗略到精细的特征聚合，其性能超过了当时的基于补丁的分类器[3]。然而，传统的U-Net在处理胰腺病变时存在两个持续存在的问题。首先，它们的纯卷积感受野难以捕捉到区分肿瘤体素与周围十二指肠或胃壁所需的长距离上下文，尤其是在薄切片或非典型肿瘤形态下。其次，计算资源限制通常迫使使用浅层神经网络，这无意中牺牲了对微小病变细节的关注，导致边界模糊[4]。

后续的研究尝试通过扩张卷积、注意力门和多尺度融合来改进这些问题；尽管如此，渐进式的改进效果趋于平稳，参数数量却急剧增加。引入自注意力机制的变体（如TransUNet和UNETR）在多个腹部基准测试中提升了Dice分数[5]。然而，医学变换器仍然存在与token长度相关的二次复杂性问题，这限制了输入分辨率或需要昂贵的窗口化策略。此外，大多数设计采用同质的注意力头，忽略了不同层次解剖模式的异质性。Yakaiah等人最近发布的PancreaticNet将双注意力ViT机制嵌入到注意力引导的多尺度U-Net中，并使用Bobcat优化算法调整解码器超参数，在NIH和MSD数据集上取得了最先进的Dice分数[6]。然而，底层的ShuffleNet编码器限制了高频特征的保留，而Bobcat的密集探索策略可能导致在深度搜索空间中过早收敛。为了解决这些问题，我们提出了三个协同贡献。首先，我们用自适应多尺度分层视觉变换器（MERIT）替换了轻量级的ShuffleNet编码器，该变换器将自注意力分解为局部窗口操作，并通过跨窗口卷积融合进行增强。

这种混合设计保留了变换器级别的全局推理能力，同时保持了线性计算复杂度和类似CNN的归纳偏见，实现了无需补丁下采样的原生256×256像素处理[7]。其次，我们在注意力机制中引入了BlackMamba专家混合（MoE）机制。BlackMamba结合了状态空间序列建模和专家路由：四个专门的专家模型学习了区域、纹理、血管和边界的识别能力，一个轻量级的门控网络在推理过程中动态地将token分配给相应的专家。这种多样性减轻了标准多头注意力的同质化效应，在不同患者对比度条件下使肿瘤边界更加清晰。第三，我们用多策略集成麻雀搜索算法（MISSA）替换了Bobcat，这是一种2025年提出的生物启发式优化器，它结合了生产者-搜寻者社会觅食策略和自适应混沌扰动。MISSA的探索-利用平衡通过迭代过程得到优化，使得解码器超参数的遍历更加广泛且更有方向性[8]。我们有意保留了原始PancreaticNet的预处理流程，包括双线性缩放到256×256像素、z分数强度归一化、旋转和弹性增强以及HE-GADF对比度噪声抑制，以确保结果的可比性，并突出显示了骨干网络、注意力机制和优化器替换的独立影响。

同样，所有训练协议常量（AdamW、学习率1×10?⁴、批量大小8、100个训练周期、提前停止耐心度10）都与参考实现保持一致。在NIH胰腺CT（82个数据集）和MSD胰腺（282个数据集）上的定量评估显示，我们的框架在NIH数据集上达到了90.8%的Dice分数、83.4%的Jaccard相似度和3.7毫米的HD₉₅精度，分别比PancreaticNet提高了2.6%、3.1%和0.8毫米，同时参数数量仅增加了17%，FLOPs控制在12吉次以内，完全符合A100芯片的限制。消融分析表明，BlackMamba MoE相比单一专家注意力机制提高了1.4%的Dice分数，MISSA相比Bobcat提高了0.9%的Dice分数，凸显了我们模块化升级的叠加效益。定性可视化结果也证实了定量发现，显示胰腺尾部边界的轮廓更加清晰，胰腺周围脂肪区域的假阳性减少。总之，我们的研究通过集成计算上可行的分层变换器、考虑异质性的专家注意力机制和现代元启发式优化器，改进了基于CT的胰腺肿瘤分割技术，同时遵循了Yakaiah等人验证的预处理和评估框架。由此实现的准确性和效率平衡支持将其应用于临床决策支持，并为半监督扩展、MRI融合和实时术中部署铺平了道路。

为了研究主要模块之间的交互效果，我们进行了扩展的消融实验，考虑了MERIT、BlackMamba MoE和MISSA的部分组合。除了已报告的变体（无各向异性扩散、MERIT→Swin-UNet、无MoE、无MISSA、无拉普拉斯融合），我们还评估了MERIT+MISSA（无MoE）和MERIT+MoE（无MISSA）的组合。结果包含在修订后的消融表中，表明每个模块单独添加时都能带来积极效果，但完整组合带来了最大的提升。例如，MERIT+MISSA组合在Dice分数上优于单独使用MERIT的基线，而MERIT+MoE通过专家路由进一步明确了边界。完整的MERIT+MoE+MISSA配置始终实现了最高的Dice分数和最低的HD₉₅精度，表明这些模块是互补的，而不是冗余的。

与之前的基于变换器的分割架构（如TransUNet、Swin-UNETR和CoTr）相比，提出的MERIT-BlackMamba-MISSA框架引入了三项结构创新。首先，我们采用了MERIT的分层窗口变换器，而不是单一的ViT或Swin骨架，并通过状态空间启发的BlackMamba专家混合机制进行增强，使不同的专家专注于边界清晰化、血管背景、实质纹理和噪声抑制。其次，我们将这种架构与生物启发式的外循环优化器（MISSA）结合在一起，后者在训练过程中通过反向传播驱动解码器深度和通道宽度的搜索，从而在单一训练流程中统一了架构搜索和权重优化。第三，我们明确分析了NIH和MSD数据集之间的跨数据集泛化能力和计算权衡（FLOPs、内存和墙钟时间），这些在早期的变换器设计中较少系统地被报道。这些元素共同提供了异质专家注意力、外循环元优化和面向部署的分析，使MERIT-BlackMamba-MISSA与现有的基于变换器的胰腺分割模型区分开来。

方法论

本文的方法论设计遵循三个指导原则。首先，每个阶段都必须保留诊断上显著的细节，同时抑制由成像方式引起的噪声和对比度变化。其次，局部纹理线索和长距离解剖背景应通过一个能够在普通GPU上优雅扩展的层次结构进行联合建模。第三，架构和训练超参数必须自动适应数据，而不是依赖于手工调整的启发式方法。

数据集和实验设置

MERIT-BlackMamba分割网络在配备了两块NVIDIA A100 80GB GPU、一块AMD EPYC 7742 CPU（128核心）和512GB DDR4内存的专用深度学习工作站上进行了训练，操作系统为Ubuntu 22.04 LTS。所有实验均在PyTorch 2.1、CUDA 11.8和cuDNN 8.9环境下实现，支持混合精度（FP16）训练，MONAI的缓存转换加速了大体积CT数据的I/O操作。图像处理和统计任务使用OpenCV 4.8、NumPy和Pandas完成。

结论

提出的自适应多尺度分层视觉变换器结合了BlackMamba专家混合（MoE）注意力机制和MISSA优化，能够在保持足够计算效率的同时，实现高保真的胰腺肿瘤分割，适用于交互式临床应用。在NVIDIA RTX A4000 GPU上，平均推理时间为每512×512像素切片0.22秒，对于典型的40-50切片3D体积来说，不到10秒，符合常规的术前规划和报告要求。

声明

•
作者没有需要披露的相关财务或非财务利益。
•
作者声明没有与本文内容相关的竞争利益。
•
作者声明没有收到支持本报告工作的任何资助。
•
人类伦理和参与同意声明：不适用。
•
所有在提交名单上的作者
（1）
对工作的构思或设计；或数据获取、分析或

CRediT作者贡献声明

Yakaiah Komira：撰写——原始草案、验证、软件实现、方法论设计、调查、形式分析、概念化。S. Karthikumar：

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

方法论

数据集和实验设置

结论

声明

CRediT作者贡献声明

利益冲突声明

热点排行

新闻专题