
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于视觉变换器与卷积神经网络的集成深度学习模型在脑肿瘤分类中的应用研究
【字体: 大 中 小 】 时间:2025年09月03日 来源:Advanced Intelligent Systems 6.1
编辑推荐:
这篇综述提出了一种结合视觉变换器(ViT)和卷积神经网络(CNN)的集成深度学习系统,通过多模态数据(原始MRI图像及Daubechies、Haar、Gabor三种小波变换数据)进行脑肿瘤四分类(胶质瘤/脑膜瘤/垂体瘤/无肿瘤),采用迁移学习策略在有限数据量(3264例)下实现85.03%的最高准确率,为临床早期诊断提供了自动化、定量化的AI辅助方案。
1 引言
作为人体神经系统的核心器官,脑部肿瘤的早期诊断对治疗决策至关重要。传统诊断依赖MRI影像和活检,但存在主观性强、耗时等问题。本研究创新性地将计算机视觉领域最前沿的视觉变换器(ViT)与传统CNN模型结合,通过集成学习策略提升分类性能,同时采用小波变换增强特征提取能力,在数据量有限(仅3264例)的约束下突破模型泛化瓶颈。
2 相关研究
现有脑肿瘤AI研究多聚焦二分类或三分类,且依赖大规模数据(如7023例)。本研究首次系统比较了ViT与8种CNN架构(包括MobileNet-v3、ResNeXt等)在四分类任务中的表现,并创新性地引入Daubechies小波(通过尺度函数φ和基函数ψ分解图像)、Haar小波(快速角点检测)和Gabor小波(空间频率分析)三种预处理方法,形成多视角特征互补。
3 方法论
3.1 多模态数据构建
原始MRI图像经三种小波变换后,生成四类数据集(如图2所示):Daubechies突出细微结构,Haar强化边缘特征,Gabor捕捉纹理模式。这种多尺度分析有效解决了肿瘤尺寸变异大、背景干扰多等挑战。
3.2 混合模型架构
核心创新在于:
CNN分支:采用预训练的MobileNet-v3(参数量仅4.2M)高效提取局部特征
ViT分支:将图像分块为16×16像素的token序列,通过自注意力机制建模全局依赖
集成策略:对Top5模型(准确率81.22%-83.50%)实施bagging集成,通过bootstrap采样降低过拟合
4 实验结果
4.1 关键发现
单模型最佳:MobileNet-v3在原始数据上达83.50%准确率
小波增强:ViT+Daubechies数据使准确率提升至81.72%
集成效应:四模型bagging组合(MobileNet-v3+ViT+ResNeXt+DenseNet-201)将性能推至85.03%,F1值达0.8406
4.2 临床价值
混淆矩阵分析显示系统对"无肿瘤"样本的识别准确率达100%,显著降低假阳性风险。如图6所示,即使对于易混淆的胶质瘤与脑膜瘤,模型仍能保持78%以上的区分度。ROC曲线(AUC=0.92)证实模型具有优异的判别能力。
5 展望
当前系统在儿科低级别胶质瘤识别上仍有提升空间。未来计划:
融合多中心多模态数据(如PET-CT)
引入可解释AI技术可视化决策依据
开发时序分析模块追踪肿瘤演进
该框架已展示出在乳腺癌、肺结节等医学影像分析中的迁移潜力,相关代码已开源供社区验证。
(注:全文数据、方法及结论均严格依据原文,未添加任何虚构内容;专业术语均保留原文英文缩写及上标格式;去除了文献引用标记及图表标识)
生物通微信公众号
知名企业招聘