编辑推荐:
帕金森病(PD)早期诊断困难,现有诊断方法存在不足。研究人员开展基于常规 T2W FLAIR 成像的多中心机器学习研究。结果显示,相关模型在区分 PD 患者和健康对照者上表现良好。这为 PD 早期筛查提供新方法,具有重要意义。
帕金森病(Parkinson’s disease,PD)是全球范围内第二大常见的神经退行性疾病,如同隐藏在身体里的 “沉默杀手”,悄无声息地破坏着患者的生活。据统计,2016 年全球约有 600 万人受其困扰。PD 的典型症状包括震颤、僵硬、运动迟缓以及姿势不稳,同时还伴有一系列非运动症状,如自主神经功能紊乱、嗅觉丧失和快速眼动睡眠行为障碍等。其主要病理特征是黑质(substantia nigra,SN)和纹状体中异常的 α - 突触核蛋白聚集以及多巴胺能神经元的缺失,而且这种病变一旦发生,往往不可逆转。当患者出现明显的运动症状时,黑质中的多巴胺能神经元可能已经损失了 40 - 60%,突触功能更是下降高达 80% 。这意味着早期发现 PD 并进行干预至关重要,就像在疾病的萌芽阶段将其遏制,有可能减缓疾病的发展进程,为患者争取更多的生活质量。
然而,目前 PD 的诊断面临诸多挑战。在日常临床实践中,PD 的诊断主要依赖病史采集、神经系统检查以及对多巴胺能治疗的反应,常规的头部磁共振成像(Magnetic Resonance Imaging,MRI)虽会进行,但主要用于排除其他继发性病变,对 PD 诊断的特异性不足。由于 PD 临床表现的多样性和疾病潜伏期长,误诊现象较为普遍。有研究表明,初次就诊时 PD 的误诊率可达 16.1%,随访过程中更是高达 20.4% 。对于病程小于 5 年的 PD 患者,诊断准确率仅为 53% 。虽然像多巴胺 - 单光子发射计算机断层扫描(dopamine - SPECT)和 18F - 氟代脱氧葡萄糖正电子发射断层扫描(18F - FDG PET)成像等检查手段对 PD 诊断有重要价值,但因其成本高昂且放射性示踪剂特异性高,很多医院难以开展。一些先进的 MRI 技术,如定量磁敏感成像、扩散 MRI 和功能 MRI,虽能从不同病理生理角度揭示 PD 患者中脑和新纹状体的异常,但这些分析过程复杂,高度依赖资深神经放射科医生的经验,这使得它们在临床广泛应用中受到限制。因此,开发一种易于获取、无创且低成本的生物标志物来提高 PD 诊断的准确性,成为了医学领域亟待解决的难题。
为了攻克这一难题,来自复旦大学附属华山医院等多家机构的研究人员开展了一项极具意义的研究。他们聚焦于能否利用从常规获取的 T2 加权液体衰减反转恢复(T2 - weighted fluid - attenuated inversion recovery,T2W FLAIR)图像中提取的放射组学特征,借助机器学习(Machine Learning,ML)的强大力量,区分 PD 患者和健康对照者(healthy controls,HCs),从而为 PD 的早期筛查提供新的途径。该研究成果发表在《Insights into Imaging》杂志上。
研究人员为开展此项研究,运用了多种关键技术方法。他们从四个医院和帕金森病进展标记倡议(Parkinson’s Progression Marker Initiative,PPMI)招募了 1727 名受试者,构建了庞大的样本队列。对所有受试者进行常规头部 MRI 扫描,获取 T2W FLAIR 序列图像。随后,在图像预处理阶段,将不同设备获取的图像进行标准化处理,统一像素间距、裁剪图像并归一化灰度值。研究人员手动勾勒出包括双侧黑质(SN)、红核(red nucleus,RN)、苍白球(globus pallidus,GP)和壳核(putamen,PU)在内的感兴趣区域(Regions of Interest,ROIs),并借助 Pyradiomics 工具从这些区域提取了 1781 个放射组学特征。之后,利用最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)算法和最大相关最小冗余(Maximal Relevance and Minimal Redundancy,mRMR)算法进行特征降维,筛选出与诊断结果相关性最高的特征。最后,运用 K 近邻(K - nearest neighbor,KNN)、随机森林(random forest,RF)、支持向量机(support vector machine,SVM)、高斯朴素贝叶斯(Gaussian Naive Bayes,GNB)、自适应增强(Adaptive Boosting,AB)和多层感知器(multilayer perceptron,MLP)等六种 ML 算法建立分类模型,并在内部和外部测试队列中进行验证。
临床特征分析
研究共纳入 1727 名受试者,分别组成训练队列(395 名 PD 患者 / 574 名 HCs)、内部测试队列(99 名 PD 患者 / 144 名 HCs)和外部测试队列(295 名 PD 患者 / 220 名 HCs)。通过对这些队列的人口统计学信息分析发现,HC 和 PD 组之间在年龄和性别分布上无显著差异,这为后续研究排除了年龄和性别因素对结果的干扰。
放射组学特征提取与选择
两名神经放射科医生手动分割 ROIs 后,计算得到的 Dice 相似系数(Dice similarity coefficient,DSC)值良好(DSC = 0.825 ± 0.145),表明分割结果具有较高的可靠性。从所有 ROIs 共提取出 7124 个放射组学特征,经过 LASSO 和 mRMR 筛选,最终确定了 20 个与诊断结果高度相关的特征。这些特征均为高阶特征,其中 SN 区域贡献了 5 个,RN 区域 2 个,GP 区域 3 个,PU 区域 10 个。从 SN 区域提取的 square root_glcm_Imc1 特征重要性值最高,达到 0.8579;从 PU 区域提取的 waveletHHL_glszm_ZoneEntropy 特征重要性值为 0.8295,紧随其后。
内部队列分类性能
在内部测试队列中,六种 ML 模型展现出良好的分类性能,受试者工作特征曲线下面积(Area under the curve,AUC)在 0.96 - 0.98 之间,准确率范围为 0.80 - 0.90。其中,SVM 和 MLP 模型表现最为突出,准确率均达到 0.90,AUC 为 0.97(95% 置信区间(confidence interval,CI):0.94 - 0.98)。RF 模型准确率虽为 0.80,但 AUC 也达到了 0.96(95% CI:0.94 - 0.98)。KNN、GNB 和 AB 模型的准确率分别为 0.86、0.85 和 0.85,AUC 分别为 0.98、0.96 和 0.96。以 MLP 模型的 AUC 为参考,DeLong 检验显示其他模型与 MLP 模型的 AUC 值无显著差异(所有 p > 0.05) 。
外部队列分类性能
在外部测试队列中,SVM、MLP 和 KNN 模型表现稍优于其他模型,AUC 值均超过 0.80。其中,MLP 模型 AUC 最高,为 0.85(95% CI:0.80 - 0.89),准确率为 0.78。KNN 和 SVM 模型的 AUC 分别为 0.82(95% CI:0.77 - 0.87)和 0.81(95% CI:0.75 - 0.86),准确率分别为 0.79 和 0.78,与 MLP 模型相近。RF 模型准确率为 0.70,AUC 为 0.77(95% CI:0.70 - 0.82)。GNB 和 AB 模型的 AUC 最低,均为 0.73(95% CI:0.67 - 0.79),准确率均为 0.77。DeLong 检验表明,KNN 和 SVM 模型与 MLP 模型的 AUC 值无显著差异(p = 0.128 和 p = 0.495),但 MLP 模型的 AUC 值显著高于 GNB、AB 和 RF 模型(所有 p < 0.005) 。
研究结论和讨论部分具有重要意义。此次研究从常规 T2W FLAIR 图像中成功提取出与 PD 诊断相关的放射组学特征,并基于这些特征建立的 ML 模型在区分 PD 患者和 HCs 方面展现出良好的性能,无论是内部测试队列还是外部测试队列,都取得了较为理想的准确率和 AUC 值。研究发现的 20 个放射组学特征,来自对 PD 具有重要影响的四个脑区,它们从不同角度反映了 PD 的病理变化。SN 在 PD 发病机制中起着核心作用,其特征重要性最高;RN 可能在 PD 中发挥代偿作用;PU 和 GP 与 PD 的运动障碍密切相关,尤其是 PU 在疾病进展过程中多巴胺的变化及与治疗的关联,都凸显了这些区域特征在疾病诊断中的价值。与以往研究相比,该研究样本量更大,图像来源多样,有效提高了模型的稳健性、可转移性和泛化能力。不过,研究也存在一些局限性,如为回顾性研究,需要前瞻性验证;可进一步结合临床指标提高诊断精度;手动分割 ROI 较为繁琐,可借助深度学习发展自动分割模型;PD 诊断基于临床标准,还需神经病理学验证。但总体而言,该研究为 PD 早期筛查提供了一种客观、半自动化且有效的方法,基于常规 T2W FLAIR 图像的 ML 模型具有巨大的潜力,为后续 PD 诊断研究开辟了新的方向,有望在未来临床实践中发挥重要作用,帮助更多患者实现 PD 的早期发现和干预。