
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ViTR-Net:基于Vision Transformer与RepVGG双编码器架构及三重融合策略的多模态MRI脑肿瘤分割方法
【字体: 大 中 小 】 时间:2025年06月27日 来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
为解决多模态MRI脑肿瘤分割中模态间互补信息提取与CNN-Transformer特征融合的难题,研究人员提出ViTR-Net架构。该模型通过并行ViT与RepVGG双编码器分别捕获全局上下文与局部特征,创新性引入三重融合策略(TFS)和通道体素注意力机制(CVAM),在BraTS2021/2020/2019数据集上Dice分数达0.891/0.866/0.781,较TransUnet提升最高9.7%,显著优于现有SOTA模型,为精准医疗提供新工具。
研究背景
脑胶质瘤作为最常见的原发性脑肿瘤,其早期精准分割对临床诊疗至关重要。多模态磁共振成像(MRI)技术虽能提供T1、T1ce、T2和FLAIR等序列的互补信息,但现有方法面临两大瓶颈:一是传统卷积神经网络(CNN)难以建模长程依赖关系,二是Transformer与CNN的异构特征融合会引发参数爆炸和语义鸿沟。尽管U-Net及其变体在医学图像分割中表现优异,但如何协同发挥CNN的局部感知优势与Transformer的全局建模能力,仍是亟待突破的科学问题。
研究设计与方法
广西某高校团队在《Biomedical Signal Processing and Control》发表研究,提出ViTR-Net创新架构。该模型采用双分支编码器设计:以RepVGG作为CNN分支提取模态局部特征,ViT作为Transformer分支捕获全局上下文;在解码阶段首创三重融合策略(Triple Fusion Strategy, TFS)实现跨层特征交互,并通过通道体素注意力机制(Channel Voxel Attention Mechanism, CVAM)抑制冗余信息。实验基于BraTS2019-2021数据集(共1955例样本),采用Dice系数等指标评估性能。
研究结果
双编码器架构验证
对比实验显示,RepVGG分支在ED区域分割Dice达0.824,显著优于ResNet等传统CNN,证明其局部特征提取优势;ViT分支对ET区域分割提升3.6%,验证全局建模有效性。
TFS模块性能
引入上层特征融合映射后,WT区域分割参数量减少18.7%,特征差异度降低23.4%,表明该策略能有效桥接异构特征。
CVAM机制作用
注意力重加权使TC区域假阳性率下降12.8%,证明其能显著抑制背景噪声,提升小目标分割精度。
跨数据集泛化性
在BraTS2021上达到SOTA性能(平均Dice 0.891),较TransUnet提升6.8%,且在不同年份数据集间性能波动小于2.3%,显示强鲁棒性。
结论与意义
该研究首次将RepVGG引入医学图像分割领域,其"单路训练-多路推理"特性兼顾效率与精度;提出的TFS-CVAM协同机制为异构架构融合提供新范式。临床价值在于:① 对<1cm3的NCR病灶检出率提升15.2%;② 全自动分割耗时仅0.38秒/例,满足实时诊疗需求。未来可扩展至PET-CT等多模态融合场景,为智慧医疗提供关键技术支撑。
生物通微信公众号
知名企业招聘