协作编码结合混合注意力机制的知识蒸馏技术,用于缺失模态的脑肿瘤分割
《Biomedical Signal Processing and Control》:Collaborative encoding attributed hybrid attention knowledge distillation for missing-modality brain tumor segmentation
【字体:
大
中
小
】
时间:2025年11月22日
来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
准确分割多模态MRI中的脑肿瘤是临床诊断和手术规划的关键,但缺失模态会导致传统模型性能显著下降。本文提出基于协同编码的混合注意力知识蒸馏框架,通过Mamba-ViT协同编码器动态整合可用模态特征,结合混合注意力机制实现教师网络知识的高效迁移,在BraTS2020和2021数据集上显著优于mmFormer、M2FTrans等方法,有效解决缺失模态下的脑肿瘤分割难题。
脑肿瘤的精准分割在临床诊断和手术规划中起着至关重要的作用,尤其是在多模态磁共振成像(MRI)中。然而,在实际临床应用中,由于采集误差或协议差异,缺失模态的问题十分常见,这会严重降低传统分割模型的性能。为了解决这一挑战,本文提出了一种基于协同编码的混合注意力知识蒸馏框架,专门用于处理缺失模态的情况。该方法的核心创新在于引入了一种协同的Mamba-ViT编码器,能够全面建模单模态和多模态特征。具体而言,ViT分支通过其注意力机制提取每种可用模态的详细内部上下文特征,而Mamba分支则利用其选择性扫描机制高效地捕捉长距离依赖关系和跨模态交互。此外,我们还引入了一种混合注意力知识蒸馏模块,将教师网络(使用完整模态训练)中丰富的特征表示迁移到一个灵活的学生网络中,从而显著增强对缺失数据的鲁棒性。在BraTS2020和BraTS2021基准测试中的大量实验表明,我们的方法在所有缺失模态场景下均优于当前最先进的方法,包括mmFormer和M2FTrans。这一卓越的性能为可靠的临床部署提供了更大的可能性。
在临床实践中,脑肿瘤分割通常依赖于多种MRI序列,例如T1加权成像(T1)、对比增强T1加权成像(T1C)、T2加权成像(T2)和液体衰减反转恢复(FLAIR)。这些序列提供了互补的信息,有助于识别肿瘤核心及其周围的水肿区域,从而实现准确的亚区域分析。然而,由于扫描协议的差异、患者状况或成像限制,缺失模态的情况在实际应用中非常普遍。多模态学习在分割任务中表现出显著的性能提升,因为它能够有效整合不同MRI序列的信息,特别是对于识别异质性肿瘤亚区域如增强型肿瘤、坏死核心和肿瘤周围水肿具有重要作用。当前的深度学习模型在所有模态都可用的情况下能够实现优异的分割性能,通过有效整合多模态信息达到较高的分割准确率。然而,这些模型在处理缺失模态场景时往往缺乏有效的鲁棒策略,这限制了它们在实际临床环境中的应用。
为了解决脑肿瘤分割中缺失模态的问题,已有多种方法被提出。第一种方法是针对每种可能的模态组合训练专门的模型。为了提高性能,通常采用共训练策略,其中通过知识蒸馏将完整模态网络中学习到的表示迁移到缺失模态网络中。尽管这种方法在性能上表现出色,但它需要训练和部署多达2^N-1个模型,这导致了显著的计算和存储开销。第二种方法是合成缺失模态以补全数据。这些合成方法通常通过学习图谱图像中的最具判别性特征,再结合分类机制进行体素级别的强度预测来重建缺失模态图像。第三种方法尝试将可用模态映射到一个共享的潜在空间,以学习共同的特征表示,然后将其投影到分割空间中以恢复缺失信息。在这一类别中,一个显著的例子是基于特征解耦和门控融合的Robust-Seg方法,该方法明确地将每种模态的特征分解为模态不变部分(用于鲁棒性)和模态特异性部分(用于互补信息),并结合自适应门控融合机制。代表性的研究如mmFormer通过使用跨模态变压器来显式建模跨模态相关性,而M2FTrans则采用模态掩码训练策略结合基于变压器的融合(包括空间权重注意力和通道级融合变压器)来提高鲁棒性。然而,这些方法在多个模态缺失的情况下仍然面临性能下降的问题,这主要是因为从高度不完整数据中学习鲁棒的共享表示存在困难。
第四种方法利用知识蒸馏,将多模态教师模型的知识迁移到一个使用缺失模态进行推理的学生模型中。例如,Wang等人提出了一种仅使用单模态数据进行推理的知识蒸馏方法。尽管这些方法在创新性方面有所突破,但在训练单模态模型时可能会引入偏差,并且知识蒸馏过程可能效率低下,因为教师模型通常包含与学生无关的信息。
每种方法都有其独特的优势,但也面临着在处理缺失医学影像模态时的重大挑战。为了解决这些问题,本文提出了一种新的协同编码与混合注意力知识蒸馏网络。该网络在传统的知识蒸馏框架基础上,进一步引入了注意力蒸馏机制,使学生模型能够专注于关键信息区域,同时过滤掉冗余特征。与传统的单模态蒸馏方法不同,我们的方法创新性地利用所有可用但可能不完整的多模态数据作为学生模型训练的直接输入,同时从包含完整多模态信息的教师模型中进行知识迁移,从而显著提升模型的鲁棒性。关键的是,我们的框架设计为能够直接在现有模态子集中运行,而无需对缺失模态进行填充、掩码或替换。为了在学生模型中保留每种可用模态的独特特性,我们采用了独立的ViT编码策略。此外,为了在早期阶段增强跨模态特征交互,我们通过Mamba编码处理所有可用模态。这是因为Mamba的选择性机制非常适合我们处理可变缺失模态的场景——它能够动态选择和压缩跨可用模态的上下文信息,从而在输入依赖的基础上显著增强跨模态信息的交互。在解码和跳跃连接阶段,来自Mamba编码和独立ViT编码的中间输出会参与后续的特征融合。这种双流集成确保了所有现有模态特异性特征之间的协同合作,从而显著增强跨模态信息交互的流畅性和多模态表示的互补性。数据流因此由每个输入案例中可用的模态集合动态定义,确保了在各种缺失模态场景下一致且无需插补的处理流程。
本文的主要贡献包括以下三个方面:
第一,我们提出了一种协同不对称编码器。在学生模型中,我们设计了一种协同不对称编码策略,该策略结合了独立编码与多模态Mamba编码。具体来说,每种单模态特征都通过独立的ViT编码分支提取,以保持其独特特性。同时,对于所有存在的多模态数据,我们使用具有选择性扫描机制的Mamba编码器来促进多模态之间的深度特征交互,从而获得多模态融合特征。
第二,我们提出了混合注意力知识蒸馏方法。该方法使学生模型能够从完整模态的教师模型中学习特征表达,同时专注于关键语义区域,抑制无关信息。这有助于学生模型从教师模型中学习基本特征和全局上下文,从而提升其在处理缺失模态时的性能。
第三,我们在BraTS2021和BraTS2020数据集上进行了大量实验,结果表明我们的模型能够有效应对缺失模态的挑战,显著提升脑肿瘤分割的准确性和鲁棒性。
为了进一步探讨相关工作,本文对现有的多模态脑肿瘤分割方法进行了简要回顾。由于我们提出的方法基于知识蒸馏来处理缺失模态,因此相关工作的介绍也涵盖了这一方面。在多模态学习领域,已有许多研究致力于解决由于模态缺失导致的性能下降问题。这些研究通常采用不同的策略,例如专门训练模型、合成缺失模态或使用共享潜在空间进行特征学习。此外,知识蒸馏作为一种有效的模型压缩技术,也被广泛应用于多模态分割任务中,以提高学生模型在缺失模态情况下的性能。然而,现有的知识蒸馏方法在处理多模态数据时往往存在局限性,尤其是在如何有效地从教师模型中迁移知识以适应学生模型的需求方面。
在本文提出的协同编码与混合注意力知识蒸馏网络中,我们采用了Unet-like的编码器-解码器结构,并引入了多种架构优化和创新。在编码阶段,我们使用了独立的ViT编码结构来充分提取单模态特征。此外,我们还集成了一个增强模态的ME(Mamba编码)模块,以增强可用模态之间的特征交互,从而更好地利用多模态的互补信息。这种结构设计不仅能够有效处理多模态数据,还能在缺失模态的情况下保持较高的分割性能。通过结合ViT和Mamba编码器的优势,我们的方法能够同时保持单模态的特异性,并促进多模态之间的深度交互。在解码阶段,我们采用了一种基于注意力的机制,使学生模型能够更准确地捕捉关键信息区域,同时忽略无关特征。这种机制不仅提高了分割的准确性,还增强了模型在处理缺失模态时的鲁棒性。
在数据集方面,我们评估了所提出的方法在BraTS2021和BraTS2020两个数据集上的性能。这两个数据集均来自多模态脑肿瘤分割挑战,每个受试者包括四种不同的MRI模态:Flair、T1c、T1和T2。在挑战结束后,这四种肿瘤内部结构(水肿、增强型肿瘤、坏死核心和非增强型肿瘤核心)被归类为三个肿瘤区域用于评估:整个肿瘤(包括所有肿瘤组织)、肿瘤核心(由增强型部分组成)和肿瘤周围水肿(由非增强型部分组成)。通过在这些数据集上的实验,我们验证了所提出方法的有效性,并展示了其在处理缺失模态时的优越性能。
在结论和未来工作部分,本文总结了所提出方法的贡献。该方法通过结合Mamba和ViT架构的优势,以及基于注意力的知识蒸馏,成功地在多模态脑肿瘤分割中解决了缺失模态的问题。通过保持单模态的特异性并促进多模态之间的深度交互,我们的方法在处理缺失模态时表现出更高的鲁棒性。此外,通过在解码和跳跃连接阶段引入注意力机制,我们的方法能够更准确地捕捉关键信息区域,从而提升分割的准确性。在大量实验验证后,我们确认了该方法在处理缺失模态时的优越性能,这为可靠的临床部署提供了坚实的基础。
在作者贡献方面,Shenhai Zheng负责撰写和审阅论文、监督研究、提出方法、进行形式分析和概念设计。Xi Gao负责撰写原始稿件并提出方法。Xue Tang负责撰写和审阅论文、撰写原始稿件、进行形式分析和数据管理。Ziyun Wang负责验证结果、提供资源和数据管理。
在竞争利益声明中,作者声明他们没有已知的与本研究相关的财务利益或个人关系,这些关系可能影响本文所报告的工作。
在致谢部分,本文的研究得到了部分资助,包括国家自然科学基金(项目编号61902046和61901074)、重庆市教育委员会科技研究项目(项目编号KJZD-K202200606和KJQN202300608)以及重庆市研究生创新项目(CYS240412)。这些支持为本文的研究提供了重要的资源和条件,使我们能够顺利开展实验和分析。
综上所述,本文提出了一种协同编码与混合注意力知识蒸馏网络,能够有效解决多模态脑肿瘤分割中的缺失模态问题。通过结合ViT和Mamba编码器的优势,以及基于注意力的知识蒸馏机制,我们的方法在保持单模态特异性的同时,显著提升了多模态特征的交互能力。在BraTS2020和BraTS2021数据集上的实验结果进一步验证了该方法的有效性,表明其在处理缺失模态时的优越性能。这不仅为临床应用提供了更可靠的技术支持,也为未来的多模态医学影像处理研究奠定了基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号