编辑推荐:
帕金森病(PD)诊断困难,现有模型存在局限。研究人员开展 Swin Transformer 和 CNN 融合框架用于 PD 分类研究。结果显示模型准确率达 96%、灵敏度 97% 等。该研究为 PD 诊断提供新方案,推动疾病早期精准诊断。
帕金森病(Parkinson’s disease,PD)作为全球第二大常见神经系统疾病,正以惊人的速度在人群中蔓延。它就像一个隐匿在黑暗中的 “健康杀手”,悄无声息地侵蚀着患者的生活。PD 是一种无法治愈且逐渐恶化的疾病,但如果能在早期发现并干预,患者的生活质量(Quality of Life,QoL)将得到极大改善。目前,医生主要借助患者病史和脑部医学影像,如磁共振成像(Magnetic Resonance Imaging,MRI)来诊断 PD。然而,MRI 影像包含大量切片,医生和放射科医生要逐一仔细查看,从中精准诊断 PD 并非易事。而且,PD 与其他神经系统疾病症状相似,导致误诊率高达 25% 。这就好比在一堆相似的拼图碎片中寻找特定的那几片,难度极大。在这样的困境下,基于深度学习的全自动、计算机辅助诊断系统成为了医学领域的 “救命稻草”,吸引了众多研究人员投身其中。
来自中南大学的研究人员积极响应这一挑战,开展了一项关于利用 Swin Transformer 和卷积神经网络(Convolutional Neural Networks,CNN)融合框架进行帕金森病 MRI 精准分类的研究。他们通过不懈努力,成功构建了一种创新的模型,该模型在准确率、灵敏度、特异性和曲线下面积等指标上分别达到了 96%、97%、95% 和 95% ,这一成果为帕金森病的早期诊断带来了新的曙光,具有重大的临床意义和应用价值。该研究成果发表在《Scientific Reports》上。
研究人员为开展此项研究,运用了多个关键技术方法。他们从帕金森病进展标记倡议(Parkinson’s Progression Markers Initiative,PPMI)数据库获取了 498 名受试者的 MRI 数据,其中 267 名属于 PD 患者,231 名为健康对照(Healthy Control,HC)。在数据处理阶段,使用图像配准技术对数据进行对齐,通过非参数非均匀强度归一化算法去除噪声。之后,选取中间层切片构建数据集,并按 70%、10%、20% 的比例划分为训练集、验证集和测试集。模型构建方面,将模型分为 Transformer-Block、Convolutional Block 和 Dense-Block 三个主要模块,同时采用余弦注意力机制和跳跃连接以优化模型性能。
研究结果
- 模型性能评估:研究人员使用准确率、灵敏度、特异性和 AUC-ROC 等多种标准指标评估模型性能。在测试集中,共 499 个案例,其中 267 个属于 PD 类,232 个属于 HC 类。模型在 HC 类中正确分类 220 例,仅 12 例误分类;在 PD 预测中,267 例中有 258 例正确分类,仅 9 例误分类为 HC。模型在验证集上的准确率在第 50 个 epoch 后开始提升,第 300 个 epoch 时接近 98%,此时早期停止训练策略生效。
- 模型消融实验:研究人员进行了多项消融实验。仅使用 CNN-Block(Model 1)时,由于缺乏全局特征,准确率、灵敏度、特异性和 AUC 分别下降 4%、3%、4%;仅使用 Transformer-Block(Model 2)时,因缺少局部特征,各项指标比标准模型下降 8% 左右;在 Model 3 中,因未使用跳跃连接,各项指标比标准模型降低 3%(准确率、灵敏度、特异性)和 2%(AUC);Model 4 因忽略前两个阶段的跳跃连接,准确率、灵敏度和 AUC 有小幅度下降;Model 5 仅调整 FC1 层神经元数量,各项指标仅下降 1% 。这些实验表明,Swin-Transformer 和 CNN 的结合对 PD 分类结果有积极影响。
- 不同实验设置下的模型性能:研究人员测试了不同超参数设置对模型性能的影响。改变 dropout 比例、批量大小、学习率和优化器等参数后发现,dropout 比例为 0.3、批量大小为 256、学习率为 0.0003 且优化器为 Adam 时,模型能取得最佳结果。
- GRAD-CAM 可视化:为了让深度学习模型的决策过程更加透明、可解释,研究人员使用了梯度类激活映射(Gradient Class Activation Maps,Grad-CAM)技术。通过该技术可视化注意力图发现,模型在所有平面上都对大脑中部给予了高度关注,这表明模型成功学习到了与 PD 相关的特征。
- 模型比较:研究人员将所提模型与多种现有模型进行对比,包括 CNNs 和机器学习方法。结果显示,所提模型在各项指标上均优于大多数先前模型。虽然部分模型的准确率和特异性与该模型相近,但该模型是在三个不同平面(轴向、矢状面和冠状面)以及整个 MRI 切片上进行测试,具有更广泛的适用性。
- 模型泛化能力评估:为测试模型对未见数据的鲁棒性,研究人员从数据集中随机选取 40 个 MRI 扫描,其中 20 个来自 PD 患者,20 个来自 HC。使用预训练模型测试后发现,模型在准确率、灵敏度、特异性和 AUC 上分别达到 67%、65%、70% 和 65% 。尽管性能相比测试集有所下降,但仍证明了模型具有处理未见数据的能力。
- 计算效率评估:研究人员对比了所提模型与单独的 CNN 和 Swin-Transformer 的计算效率。所提模型每个 epoch 的训练时间为 30 - 32 分钟,相比 CNN 模型(7 - 10 分钟)和 Swin-Transformer 模型(25 - 27 分钟)更长;推理时间约为 15 - 17 分钟,也高于其他两者。这是由于 Transformer 架构的复杂性以及为提高准确性所采用的额外计算,但这种复杂性也帮助模型在帕金森病检测中取得了更优异的性能。
研究结论与讨论
帕金森病的准确诊断一直是医学领域的难题,而 MRI 在其诊断中虽有重要作用,但现有基于 MRI 数据的模型存在诸多缺陷,如难以同时捕捉局部和全局特征、易出现梯度消失问题等。本研究提出的 Swin-Transformer 和 CNN 融合模型(TransPD-Net),有效解决了这些问题。通过使用跳跃连接减少梯度消失风险,利用余弦注意力机制处理输入数据的变化,模型在帕金森病分类任务中展现出卓越的性能。
一系列实验,如消融实验、不同超参数测试、Grad-CAM 可视化以及与其他模型的对比等,充分验证了该模型的有效性和优越性。同时,模型在未见数据上也表现出一定的鲁棒性,这为其在实际临床应用中的推广提供了有力支持。不过,研究也存在一些局限性,比如计算效率有待进一步提高。未来,研究人员计划将阿尔茨海默病纳入研究,作为第三类进行分类研究,进一步拓展模型的应用范围。总体而言,这项研究为帕金森病的早期精准诊断提供了新的有力工具,有望推动神经疾病诊断领域的发展,改善患者的生活质量。