一种基于云支持的混合卷积神经网络(Convolutional Neural Network, CNN)–Transformer框架结合注意力机制用于结构性磁共振成像(structural Magnetic Resonance Imaging, sMRI)的可扩展阿尔茨海默病分期

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neuroscience Informatics》：A Cloud Enabled Hybrid CNN Transformer Framework with Attention Mechanisms for Scalable Alzheimer’s Disease Staging from Structural MRI

【字体：大中小】 时间：2026年06月12日 来源：Neuroscience Informatics CS11.7

编辑推荐：

　　摘要：阿尔茨海默病(Alzheimer’s Disease, AD)是一种神经退行性疾病，可引起认知损害及脑结构改变，早期诊断对治疗至关重要。研究人员提出了一种基于云的混合深度学习架构，用于基于结构性磁共振成像(sMRI)的可扩展AD分期。该混合架构结合卷积神

摘要：阿尔茨海默病(Alzheimer’s Disease, AD)是一种神经退行性疾病，可引起认知损害及脑结构改变，早期诊断对治疗至关重要。研究人员提出了一种基于云的混合深度学习架构，用于基于结构性磁共振成像(sMRI)的可扩展AD分期。该混合架构结合卷积神经网络(CNN)、注意力机制(Attention Mechanism)与Transformer建模，以同时捕获MRI图像中的局部与全局空间特征。CNN提取多维特征，而注意力机制与Transformer层增强上下文表示，从而实现更精确的疾病分期。该框架在启用GPU的计算机上采用PyTorch深度学习框架，在Kaggle网站公开的AD MRI数据集上训练，并在OASIS数据集上交叉验证以评估泛化能力。实验结果表明，所提方法在Kaggle数据集上达到99.65%的准确率，优于若干先进深度学习模型（如VGG16、ResNet变体、DenseNet121、EfficientNet-B0、Vision Transformer）。该方法在OASIS数据集上也达到91.67%的准确率，证明模型在神经影像数据集间的泛化能力。为实现实用化与可及性，训练后的模型还部署于Hugging Face Spaces的云推理环境中，支持通过网页浏览器上传MRI图像并进行预测。该可扩展且云可部署的设计允许可扩展医学图像处理，并可集成到云诊断系统与远程医疗解决方案中。这些发现表明所提框架在临床环境中用于稳健且可及的AD分期具有潜力。

该研究发表于《Neuroscience Informatics》。研究背景方面，阿尔茨海默病(Alzheimer’s Disease, AD)是最常见的痴呆病因，随着全球老龄化加剧其疾病负担持续增长。结构性磁共振成像(structural Magnetic Resonance Imaging, sMRI)可提供高分辨率无创脑解剖信息，AD进展伴随海马萎缩、脑室扩大、皮质变薄等渐进性结构改变，但这些改变在不同疾病阶段（如非痴呆、极轻度、轻度、中度）间存在高度重叠且较细微，即使经验丰富的影像科医师也难以仅凭sMRI准确分期。传统机器学习方法依赖手工制作特征（如基于体素的形态测量、皮质厚度、感兴趣区等）与支持向量机、随机森林等分类器，存在需手动特征工程、对预处理敏感、难以捕获高阶空间特征等局限。近期深度学习尤其是卷积神经网络(Convolutional Neural Network, CNN)可实现端到端特征学习，在AD分类上优于传统方法，但纯CNN主要捕捉局部特征，受限于局部感受野，难以建模脑内解剖上分散区域间的长程依赖关系；而Transformer架构虽能通过自注意力机制(self-attention mechanism)捕获全局上下文，但对数据量大且计算开销高。此外，多数现有研究仅关注分类性能提升，较少考虑类不平衡、可扩展性及临床实际部署中的推理可复现性、集中化部署需求等问题。因此研究人员开展此项研究，旨在构建一种结合CNN局部特征提取、注意力机制特征增强、Transformer全局上下文建模的混合深度学习框架，用于sMRI的多类AD分期，并将训练模型部署于云环境以实现可扩展、可追踪的推理服务。

研究人员得出的主要结论包括：所提混合CNN–卷积块注意力模块(Convolutional Block Attention Module, CBAM)–Transformer框架在Kaggle AD MRI数据集上达到99.65%的准确率、99.66%的F1值、Matthews相关系数(Matthews Correlation Coefficient, MCC)为0.9953，显著优于VGG16、ResNet系列、DenseNet121、EfficientNet-B0、Vision Transformer等基线模型；在跨数据集评估中（训练于Kaggle、测试于独立OASIS-1数据集），准确率为91.67%，MCC为0.88，亦全面优于基线，证明框架对分布偏移具有一定鲁棒性。消融实验证实CNN、CBAM注意力、Transformer三者均对性能有正向贡献。模型推理时间约42 ms/幅，端到端系统延迟约130 ms，吞吐量约14请求/秒，在Hugging Face Spaces容器化云环境中可稳定扩展。Grad-CAM可视化显示模型关注区域与已知AD病理脑区（如海马结构、脑室周缘、颞叶皮质）吻合。该框架为云赋能的神经影像辅助诊断提供了一种高精度、可解释、可部署的解决方案，对远程医疗与临床决策支持具有重要意义。

关键技术方法上，研究人员采用Kaggle Augmented Alzheimer MRI Dataset（四类：Non-Demented、Very Mild Demented、Mild Demented、Moderate Demented，原始图用于测试、增强集用于训练，按8:2划分训练/测试，另做五折分层交叉验证）与独立外部验证集OASIS-1（选取600张2D轴位切片，按临床痴呆评定量表Clinical Dementia Rating, CDR分为同样四类，分层抽样）。方法核心包括：标准化预处理（转为单通道灰度、统一缩放到224×224、最小–最大强度归一化到[0,1]）；CNN骨干提取层次化局部空间特征；串行通道注意力（结合平均池化与最大池化的双描述子经共享多层感知机生成通道权重）与空间注意力（通道维度平均与最大拼接后经7×7卷积生成空间掩码）构成的CBAM模块精炼特征；将精炼特征图展平为序列并添加正弦位置编码后输入两层Transformer编码器（多头自注意力multi-head self-attention、残差连接、层归一化Layer Normalization、位置前馈网络Feed-Forward Network, FFN）；全局平均池化后经全连接与SoftMax输出四类概率；采用类别加权分类交叉熵损失（权重与类频成反比）缓解不平衡；优化器为AdamW（初始学习率3×10^-4，余弦退火调度），训练50轮（batch size 32，dropout 0.3，梯度裁剪1.0）；部署于Hugging Face Spaces云环境，推理流水线含自动预处理、模型前向、Grad-CAM解释、结果日志（预测标签、置信度、模型版本、时间戳等）。

研究结果部分，首先1. Introduction（引言）通过综述AD病理、sMRI表现、传统机器学习与深度学习（CNN、Transformer、注意力机制）在AD分期上的进展与局限，指出当前缺口是缺乏兼顾局部–全局特征、类不平衡处理及云部署可行性的框架，从而引出本研究动机。2. Related Works（相关工作）系统梳理了MRI-based AD分类的传统机器学习方法、CNN模型（VGG、ResNet、DenseNet、EfficientNet等）、Vision Transformer、混合CNN-Transformer、注意力机制及相关公开数据集（OASIS等），总结出现有方法或在全局建模不足、或对部署扩展性考虑欠缺，进一步确立本研究定位。3. Proposed Methodology（所提方法）阐述整体流水线：预处理→CNN特征提取→CBAM（通道注意力+空间注意力）→特征令牌化(tokenization)与正弦位置编码→Transformer编码器全局建模→全局平均池化→全连接分类；采用类别加权损失与AdamW优化；设计了云推理流水线（无状态、模块化：预处理、推理、Grad-CAM、日志）；算法1给出完整训练步骤。3.1 Dataset Description（数据集描述）说明Kaggle数据集四类分布（原始与增强后数量，见表1）及OASIS外部验证集600张切片的四类分层抽样（见表2）。3.2 MRI Preprocessing（MRI预处理）给出灰度转换、尺寸归一化至224×224、最小–最大强度归一化公式。3.3 Design Objective and Motivation（设计目标与动机）解释为何结合CNN（局部）、CBAM（抑制无关激活）、Transformer（长程依赖），并说明选用2D轴向切片因中轴切片已含海马、脑室等关键信息且利于云高效推理。3.4 CNN-Based Feature Extraction（基于CNN的特征提取）给出卷积块变换公式（卷积、批归一化Batch Normalization、非线性激活），描述多层次特征F^(final)的输出维度C_f×H_f×W_f。3.5 Attention-Based Feature Refinement（基于注意力的特征精炼）分3.5.1 Channel Attention（通道注意力，平均/最大池化描述子、共享变换生成权重α_c，对原特征重标定）与3.5.2 Spatial Attention（空间注意力，通道维度平均/最大生成空间描述子、7×7卷积得掩码β_i,j，应用后得F^(att)）。3.6 Feature Tokenization and Positional Encoding（特征令牌化与位置编码）将F^(att)展平为N=H_f×W_f个令牌，线性投影到嵌入维度d，加正弦位置编码P_i,j得E_i⁽⁰⁾。3.7 Transformer-Based Global Context Modeling（基于Transformer的全局上下文建模）描述层归一化、多头自注意力（查询Query、键Key、值Value投影，缩放点积注意力，多头拼接与输出投影），残差连接，再次层归一化与位置前馈网络FFN（两层线性与非线性），两个Transformer编码器块依次处理得E_i⁽²⁾。3.8 Classification and Clinical Decision Support（分类与临床决策支持）对输出令牌做全局平均池化得g，全连接层输出四类logits，SoftMax得概率，采用类别加权交叉熵L_weighted=?Σ_cw_cy_clog(p_c)。3.9 Output Management and Traceability（输出管理与可追溯性）记录预测标签、置信度、模型ID、时间戳等供大规模推理追踪。3.10 Cloud-Enabled Inference and Result Logging（云赋能推理与结果日志）说明无状态云流水线部署于Hugging Face Spaces，自动预处理、推理、Grad-CAM生成、结构化日志存储。4. Experimental Setup（实验设置）中4.1 Implementation and Training Configuration（实现与训练配置）列出超参数：AdamW、初始lr=3×10^-4、余弦退火、weight decay=0.01、batch=32、epochs=50、dropout=0.3、梯度裁剪=1.0、PyTorch 2.0、NVIDIA RTX 4050 Laptop GPU；部署于Hugging Face Spaces交互网页应用。4.2 Dataset Usage and Evaluation Strategy（数据集使用与评估策略）Kaggle按8:2分训练/测试（测试用原始非增强图像），五折分层交叉验证；OASIS仅用于外部验证，切片至2D统一尺寸。4.3 Cost-Sensitive Learning and Class Imbalance Handling（代价敏感学习与类不平衡处理）用与类频反比的权重w_c计算加权损失，缓解Moderate Demented等少数类偏置（Kaggle各类总量见表1）。4.4 Evaluation Metrics（评估指标）定义准确率、精确率(precision)、召回率(recall)、F1值、MCC、False Discovery Rate(FDR)、False Negative Rate(FNR)。4.5 Cloud Deployment Environment（云部署环境）描述Hugging Face Spaces容器化部署四步（上传、预处理、推理、显示），4.5.1 Inference Time Analysis（推理时间分析）测得单图前向约42 ms；4.5.2 Latency Evaluation（延迟评估）端到端约130 ms；4.5.3 Throughput Measurement（吞吐量测量）约14请求/秒；4.5.4 Scalability Analysis（可扩展性分析）低至中等负载下性能稳定（见表4）。5. Results and Discussions（结果与讨论）中5.1 Quantitative Performance Evaluation on Kaggle Dataset（Kaggle数据集定量性能评估）显示所提模型准确率99.65%、精确率99.67%、召回率99.65%、F1 99.66%、MCC 0.9953、FDR 0.0033、FNR 0.0035，优于所有基线（见表5）；五折交叉验证均值99.12%±0.31%（准确率）、99.08%±0.35%（F1）；训练损失收敛快且稳定（图4、图5）。5.2 Cross-Dataset Validation Performance on OASIS Dataset（OASIS数据集跨域验证性能）训练于Kaggle、测试于OASIS达准确率91.67%、精确率91.07%、召回率91.42%、F1 91.23%、MCC 0.88、FDR 0.0893、FNR 0.0858（见表6），优于基线（图6）；性能低于同域Kaggle结果系因域偏移（分辨率、强度剖面、采集协议差异）且未进行域适应，但仍显示良好泛化。5.3 Confusion Matrix and Class-wise Performance（混淆矩阵与类wise性能）OASIS混淆矩阵（图7）显示大部分样本落对角，各类精确率、召回率、F1均约90%–94%（见表7）；误分类多见于相邻阶段（Very Mild与Mild间），因结构差异细微。5.4 ROC Analysis（ROC分析）OASIS上各类AUC分别为Non-Demented 0.93、Very Mild 0.94、Mild 0.92、Moderate 0.91（图8），高于随机分类器。5.5 Explainability Analysis using Grad-CAM（用Grad-CAM的可解释性分析）可视化显示模型关注区域符合AD病理脑区（海马、脑室周、颞叶皮质），且激活模式随疾病严重度增强并集中于受损区（图9）；但Grad-CAM尚未经神经放射科医师正式评估。5.6 Ablation Study（消融实验）CNN仅96.12%准确率；CNN+CBAM 97.84%；CNN+Transformer 98.73%；全模型99.65%（见表8、图10），证明各组件互补。5.7 Statistical Significance Analysis（统计显著性分析）与所有基线对比的准确率差异的95%置信区间均不含0，p<0.05（见表9），提升显著。5.8 Robustness Analysis（鲁棒性分析）在OASIS上加高斯噪声σ=10时准确率88.70%、σ=25时82.40%，亮度±20%约88–89%，对比度+20%约89%（见表10），显示一定抗扰动能力。5.9 Deployment Considerations and Scalability Analysis（部署考量与可扩展性分析）无状态、模块化推理支持并发与分布式扩展，元数据日志支持追溯与大规模应用。6. Limitations（局限性）Grad-CAM尚未经临床专家验证；仅用sMRI而未整合多模态数据（认知评分、生物标志物等）；训练部分依赖增强图像；未来需多中心数据、多模态融合、专家评估Grad-CAM、域适应等。7. Conclusion（结论）总结所提CNN–CBAM–Transformer混合框架在sMRI的AD多类分期中达到高精度（Kaggle 99.65%，OASIS 91.67%），显著优于基线，各组件贡献明确；云部署于Hugging Face Spaces实现可扩展、可追踪、带Grad-CAM解释的推理服务；未来工作将纳入多模态数据、3D MRI、专家验证解释、域泛化等。Data Availability和Ethics Statement声明所用Kaggle、OASIS均为公开去标识数据集，无需伦理批准。Ethical Statement确认原创且未一稿多投。Funding Statement致谢Multimedia University的APC赞助。

讨论部分总结：研究人员在讨论中分析了同域（Kaggle）极高准确率部分源于数据集相对标准、增强后类平衡较好，但跨域（OASIS）结果更能反映真实泛化：91.67%的准确率虽低于同域但仍显著优于基线，证明CNN–CBAM–Transformer混合架构能有效捕获局部–全局特征并对采集差异具一定鲁棒性；性能差距主要来自域偏移（分辨率、强度分布、朝向、协议不同），且OASIS完全未参与训练或调参，属分布外(out-of-distribution, OOD)评估。消融与统计分析确证各模块贡献显著且提升具统计显著性。鲁棒性测试显示模型对中等图像扰动（噪声、亮度/对比度变化）不过度敏感。Grad-CAM可视化与已知AD神经解剖改变吻合，但尚缺临床专家系统评估，属当前局限。云部署实验证实推理效率高（~42 ms）、延迟低（~130 ms）、吞吐合理（~14 req/s）、中等负载下稳定，适合集成远程医疗。作者结论翻译：本工作介绍了一种结合注意力机制与Transformer全局上下文建模的混合深度学习架构，用于从结构性磁共振成像(sMRI)进行阿尔茨海默病分期，并支持云部署。该混合模型可同时捕获神经影像数据中的局部空间特征与全局上下文信息，从而提升多类分类准确率。所提模型在Kaggle数据集上达到99.65%准确率，在独立OASIS数据集上达到91.67%准确率，较所有基线模型均有统计显著的性能提升。消融研究验证了各模型成分（CNN特征提取、卷积块注意力模块(CBAM)、Transformer上下文关系）的互补作用。除模型开发外，研究还展示了训练系统在云推理平台（Hugging Face Spaces）部署的可行性，为基于深度学习的神经影像分析集成到可扩展系统中的诊断用途铺平道路。无状态推理代码与结构化结果日志保障了可复现性、可追溯性，并可集成到远程医疗与临床决策支持中。但需注意两点：其一，虽用Grad-CAM生成模型关注区域可视化，但激活图尚未经认证神经放射科医师评估解剖与临床准确性；其二，本框架仅用sMRI而未整合多模态临床信息（如认知测验、生物标志物），后者可能进一步提升分期精度。因此未来研究将探索整合多模态临床数据、适配体积MRI、并由认证神经放射科医师评估模型解释，以进一步增强临床可行性与实用性。

联系信箱：

粤ICP备09063491号

热点排行