CRISP:一种基于相关性过滤递归特征消除与SMOTE整合的帕金森病步态筛查新策略
【字体:
大
中
小
】
时间:2025年10月10日
来源:Frontiers in Computational Neuroscience 2.3
编辑推荐:
本综述系统介绍了CRISP(Correlation-filtered Recursive Feature Elimination and Integration of SMOTE Pipeline)这一创新性多阶段框架,该框架通过相关性特征修剪、递归特征消除(RFE)和合成少数类过采样技术(SMOTE)的有机结合,有效解决了帕金森病(PD)步态检测中特征冗余和类别不平衡问题。研究采用新颖的个体层面(subject-wise)评估协议,在垂直地面反作用力(VGRF)数据集上验证了五种分类器(KNN、DT、RF、GB、XGBoost)的性能,结果显示XGBoost在二元PD检测和多元严重程度分级任务中均取得最高准确率(分别达98.3±0.8%和99.3±0.5%)。这项工作为实时、设备上的PD筛查和严重程度监测奠定了坚实基础。
帕金森病(PD)作为一种神经退行性疾病,其特征是中脑黑质多巴胺能神经元的进行性丧失,导致震颤、运动迟缓和肌强直等运动障碍,严重影响患者的日常生活功能。早期诊断和干预对于管理PD至关重要,因为当前的治疗只能缓解症状而不能逆转潜在的神经退行性变。然而,传统的诊断方法,如神经学检查和脑成像,往往难以在疾病早期、细微阶段检测到异常。这一局限性凸显了对非侵入性、早期诊断工具的迫切需求,以便在疾病初始、无症状阶段进行检测。
步态异常,如步幅缩短、行走速度减慢和步频不规则,通常是PD的最早迹象之一,出现在更明显的症状(如震颤)之前。可穿戴传感器,包括惯性测量单元(IMUs)和加速度计,在连续监测现实环境中的步态方面显示出巨大潜力。这些传感器捕获实时的三维运动数据,为检测指示PD的细微步态变化提供了一种非侵入性和可扩展的方法。PhysioNet步态数据集已成为PD研究的重要资源,该数据集包括来自PD患者和健康对照的垂直地面反作用力(VGRF)和IMU数据的全面记录,为训练机器学习(ML)模型提供了宝贵基础。
机器学习模型在分析步态数据以检测PD方面已成为关键工具。这些模型能够处理从可穿戴传感器收集的大量数据,检测步态中可能对人类观察者不明显的细微模式和异常。流行的 approaches,如k-最近邻(KNN)、决策树(DT)和其他集成或基于距离的分类器,在区分PD和健康步态模式方面已显示出有希望的结果。多项研究进一步表明,能够捕获步态信号中空间和时间依赖性的模型可以提高分类准确性,报告了高性能水平。这些模型为分析步态数据提供了可扩展的解决方案,提供了高诊断精度,并实现了PD的早期检测。相关研究还探索了其他模态,如语音分析和神经形态系统,用于PD筛查。这些ML模型的有效性突出了它们作为PD诊断的实时和可靠基准的潜力。
尽管有这些进展,几个关键挑战仍然存在。首先,基于步态的数据集通常始于高维特征空间,但很少有研究在模型训练之前系统地修剪冗余或不相关的特征。其次,PD与对照记录中的类别不平衡可能使分类器(如KNN、DT、RF、GB和XGBoost)偏向多数类,从而降低泛化能力。第三,大多数利用PhysioNet等数据集的研究仅报告所有步态周期的聚合准确性,掩盖了对临床解释和个性化诊断至关重要的个体层面变异性。
为了应对这些差距,提出了CRISP这一统一管道,其(i)过滤掉高度相关的特征,(ii)应用递归特征消除(RFE)以隔离最具信息性的指标,以及(iii)使用SMOTE(合成少数类过采样技术)平衡每个训练折,以对抗类别不平衡。同时,采用了一种个体层面评估协议,分别评估每个患者,确保每个个体有一个预测,从而真实地捕获患者层面的性能。
CRISP在306个VGRF记录(93个PD,76个对照受试者)上使用五种主流分类器(KNN、DT、RF、GB、XGBoost)跨两个任务进行了评估:二元PD检测和多类严重程度分级(Hoehn & Yahr量表)。据我们所知,这是第一项将相关性修剪、RFE和SMOTE整合到单一、高效管道中用于基于VGRF的PD筛查的研究,同时严格评估患者层面的性能。结果显示,CRISP consistently提高了所有模型的性能。对于性能最佳的分类器XGBoost,个体层面的准确性从96.1±0.8%提高到98.3±0.8%(用于PD检测),并从96.2±0.7%提高到99.3±0.5%(用于严重程度分级)。这些结果突出了仔细的特征策划和个体层面评估对个性化诊断的关键重要性,并为实时、设备上的PD筛查和严重程度监测铺平了道路。
本研究使用的CRISP管道用于基于步态的PD检测,包括三个模块:基于相关性的特征修剪、RFE和基于SMOTE的类别平衡,这些模块共同减少维度、平衡类别并提高泛化能力。模型开发和评估(第2.5节)在个体层面协议下使用了五种分类器(KNN、DT、RF、GB、XGBoost)。性能通过准确性、精确度、召回率、特异性、F1分数和ROC-AUC来测量,用于二元PD检测和多类Hoehn–Yahr分级。
从PhysioNet神经退行性疾病步态数据库中获取了93名PD患者和76名健康对照(HC)的VGRF信号,该数据库汇总了三项临床研究的数据。这些记录使用配备16个力敏电阻的仪器化鞋具捕获多种行走条件,每个鞋底八个,以100 Hz采样以测量随时间变化的足底VGRF。数据集的更多细节在补充文件S6节的队列人口统计学中。
原始VGRF信号使用嵌入每个鞋底的16个力敏传感器记录,并通过最小-最大缩放归一化到[0,1]范围。为了减少伪影,每次60秒行走的前20秒和后10秒被排除。使用10点中值滤波器(核大小9)抑制高频噪声,保留波形完整性。脚跟撞击(HS)和脚尖离地(TO)使用峰值垂直力的20%阈值检测,HS由向上交叉定义,TO由随后的向下交叉定义。一个步态周期包括两个连续的HS事件,每个周期计算特征。补充图S12比较了PD和健康受试者的VGRF曲线,而补充图S13说明了中值滤波的平滑效果。
脚跟撞击和脚尖离地事件(第2.2节)用于分割步态周期,从中提取八个时空特征:步态时间、站立时间、摆动时间、它们的百分比、步频、步长和步幅长度(补充表S14;补充图S14)。对于每个参与者,特征按周期计算,并总结为有效步幅的平均值和标准差。组级统计(补充表S15)显示PD受试者有更长的步态和摆动时间、更高的站立百分比和减少的步频,这些模式与运动迟缓和姿势不稳定一致。这些 distinct 特征被用作监督学习模型中的预测因子。为了避免任何潜在的标签泄漏,RFE和基于互信息的特征选择严格在交叉验证过程中的每个训练折内应用,确保没有来自测试集的信息影响特征选择过程。
CRISP包括三个阶段:(i)Pearson相关性分析以移除高度共线性特征(|r|≥0.80),(ii)使用100棵树随机森林的RFE选择10个最具预测性的特征,以及(iii)SMOTE以平衡每个训练折内的类别。然后使用策划的特征训练五种分类器(KNN、DT、RF、GB、XGBoost),在周期层面和个体层面交叉验证下评估。输出包括二元PD检测和多类Hoehn–Yahr分级,使用准确性、精确度、召回率、特异性、F1分数和ROC-AUC评估。
为了减少多重共线性,计算了所有步态特征的成对Pearson相关性(图2)。特征名称被标准化,系数四舍五入到两位小数,并应用|r|≥0.80的阈值来标记强相关对。这个 cutoff,常用于生物医学预测建模,避免了过多的特征损失。对于每个相关对,计算了与诊断标签(PD状态或Hoehn–Yahr等级)的互信息(MI),并丢弃了MI较低的特征。这种修剪移除了六个特征,将维度减少到24,同时保留了最具信息性的特征。所有相关性和MI计算都限制在训练数据中,以避免信息泄漏。
基于相关性修剪后,使用每个训练折内的100棵树随机森林进行RFE,进一步将特征集减少到十个,从而防止信息泄漏。图3显示了重要性排名:步态速度、步频、站立时间变异性和站立-摆动比率排名最高,而双边站立时间排名最低。准确性在10个特征处趋于稳定,简化了SMOTE平衡和模型训练,而没有性能损失。这个子集在CRISP中用于所有模型和任务。
尽管维度减少了,但 resulting 特征矩阵仍然类别不平衡, due to 两个因素:(i)PD参与者比健康对照贡献了更多的步态周期,以及(ii)PD组内Hoehn和Yahr严重阶段的分布高度偏斜。为了应对严重程度分级任务中的类别不平衡,采用了SMOTE——一种成熟的过采样方法,为少数类生成合成样本。SMOTE基于其简单性、可解释性和在小样本、高维生物医学上下文中的经验有效性被选择。Abdulsadig和Rodriguez-Villegas(2024)报告了SMOTE在应用于生理PPG数据的10种重采样技术中的强劲性能,特别是在敏感性和平衡准确性方面。
SMOTE通过在输入空间中的相邻特征向量之间插值来生成合成少数类样本。具体地,对于给定的少数实例xi,一个新的合成样本xnew被计算如方程(1)所示:
xnew = xi + δ · (xzi - xi) (1)
在我们的上下文中,每个xi是来自少数类的特征向量。它代表一个高维步态特征向量, derived from 属于少数类的单个步幅—— either 二元PD-versus-control任务中的健康对照 or 多类设置中 underrepresented Hoehn & Yahr阶段的PD患者。邻居xzi是xi的k-最近邻之一。它从同一类中选择,确保插值保持类一致性。标量δ:在[0,1]范围内的随机标量,从均匀分布采样。它引入了受控 variation,生成丰富了少数分布而没有重复的合成样本。在多类任务中,这纠正了Stage 3的 underrepresentation,将所有类均衡到约5,500个周期;类似策略用于二元任务。SMOTE仅应用于训练折,以防止数据泄漏,确保训练期间的平衡优先级,同时保持验证和测试集无偏。
为了评估不同学习范式如何处理帕金森相关步态变异性,我们采用了一组五种监督分类器,包括基于实例、基于规则和集成策略:K-最近邻(KNN)通过其k个最近邻的多数标签对样本进行分类,提供了一种简单的非参数方法,适用于中等大小的临床数据集。决策树(DT)模型使用轴对齐分割划分数据,最大化信息增益,提供可解释性并突出与PD相关的关键步态特征。随机森林(RF)是在随机数据和特征子集上训练的决策树的集成,预测通过多数投票聚合,以提高泛化能力并减少过拟合。在方程(2)中,梯度提升(GB)构建了一个加法集成模型,其中每个新树hm(x)被训练以近似损失函数相对于当前集成预测Fm-1(x)的负梯度。模型迭代更新如下:
Fm(x) = Fm-1(x) + γmhm(x) (2)
极端梯度提升(XGBoost)通过正则化目标和高效实现扩展了GB。每次迭代最小化的目标函数包括损失的二阶泰勒近似和显式正则化项,如方程(3)所示:
L(t) = ∑i=1n [gift(xi) + (1/2)hift2(xi)] + Ω(ft) (3)
gi = ?l(yi, ?i)/??i(一阶梯度)
hi = ?2l(yi, ?i)/??i2(二阶梯度)
Ω(ft) = γT + (1/2)λ∑j=1Twj2(正则化项)
这里,T是决策树ft中的叶子数,wj是第j个叶子的权重,γ和λ是正则化超参数。这种二阶 formulation 加速了收敛,并通过惩罚复杂树来提高泛化能力。XGBoost的效率和处理稀疏数据的能力使其非常适合临床数据集。为了优化性能,使用网格搜索和五折交叉验证来调整所有模型的关键超参数,确保KNN、DT、RF、GB和XGBoost的最佳配置。
大多数PhysioNet研究在步幅(周期)层面报告性能, where 每个参与者可能贡献数百个样本, thus 对汇总指标有不成比例的影响。为了获得临床相关的估计,我们采用了个体层面评估:在分类器为测试折中的每个步态周期生成预测后,我们将那些周期层面的输出 collapse 成一个单一的患者层面决策,通过多数投票用于二元任务,并通过模态类用于三类严重任务。在<0.5%的情况下观察到的平局通过平均后验概率打破。 resulting 169个患者标签(93个PD,76个HC)与地面真实诊断进行比较,以计算准确性、精确度、召回率、F1分数和ROC-AUC。这些个体层面指标在五个外部折上平均,以产生第3节中报告的最终性能估计。这种个体感知协议为每个患者提供了一个可解释的决策,这是现实世界筛查所需的粒度,并暴露了周期层面指标可能掩盖的失败模式,如系统错误分类具有非典型步态模式或有限步幅计数的个体。
解决了两个预测任务:二元分类区分PD患者和健康对照。多类分类将PD病例分配到三个Hoehn和Yahr严重等级(1、2或3)之一,反映早期疾病进展。
为了评估分类性能,报告了六个标准指标:准确性、精确度、召回率(敏感性)、特异性、F1分数和ROC-AUC。准确性捕获整体正确性,而精确度和召回率分别关注假阳性和假阴性——在临床筛查任务中至关重要。特异性测量正确识别阴性病例的能力。F1分数平衡精确度和召回率,使其适用于不平衡数据。最后,ROC-AUC跨决策阈值量化分类器鲁棒性,并广泛用于模型比较。
本节介绍了基于步态的PD检测框架的关键结果,二元和多类分类性能,t-SNE可视化,和混淆矩阵。 together,这些结果突出了CRISP管道用于PD筛查的鲁棒性和可解释性。
为了评估CRISP管道的诊断效用,我们首先解决了区分PD患者和健康对照的二元分类任务。性能在两个验证方案下评估:(i)一个整体协议,其中步态周期在参与者之间汇集并聚合用于评估,和(ii)一个个体层面协议,其中评估对每个患者单独进行,实现人级推理。
表1报告了每个五种模型在两种评估方案下实现的平均分类指标。 across the board,CRISP consistently outperformed 基线配置,在准确性、精确度、召回率和F1分数上产生增益。在整体协议下,其中周期层面预测 regardless of subject origin 聚合,XGBoost实现了97.7%的最高平均准确性,紧随其后的是随机森林(97.1%)和梯度提升(96.9%)。精确度-召回平衡对于基于集成的模型特别强,表明CRISP不仅提高了原始检测率,而且跨异质步态周期最小化了误报和漏报。在更临床相关的个体层面协议中, which 聚合预测在患者层面以模拟现实世界部署,CRISP继续提供鲁棒的改进。XGBoost的个体层面准确性从96.1%(基线)提高到98.3%(CRISP),F1分数和特异性也显示上升趋势。其他分类器,包括梯度提升和随机森林,遵循类似的增强个体层面泛化模式。这种一致性突出了管道在支持患者层面诊断决策方面的有效性,而不是仅仅优化周期层面性能。对于指标和折层面方差的完整细分,参考补充表S1–S4。
图4通过雷达图说明了CRISP实现的相对改进,这些雷达图跨越五个核心性能指标:准确性、精确度、召回率、特异性和F1分数。每个面板对比了基线(紫色)和CRISP增强(橙红色)性能,用于五种分类器之一。CRISP多边形 consistently 包围了更大的区域, indicating 跨所有指标的 uniform 增益。改进在召回率和F1分数中特别明显,这些指标对早期检测和临床可靠性至关重要。值得注意的是,在个体层面协议下,梯度提升和XGBoost都展示了这些维度的 substantial 扩展,反映了CRISP增强的检测PD阳性个体的能力,这些个体表现出高 inter-stride 变异性或非典型步态签名。这些图还暴露了每个模型的比较优势。虽然KNN和DT在CRISP下表现出 modest 增益,集成方法,特别是XGBoost,显示跨指标空间的广泛和显著扩展。这 reinforced CRISP管道在 harmonizing 敏感性和精确度方面的价值,特别是在模拟现实世界部署的条件下。
图5(左面板)呈现了一个分组条形图,比较了跨五种模型应用CRISP管道前后的分类准确性:KNN、DT、RF、GB和XGB。 across the board,CRISP产生了清晰和一致的诊断准确性改进。最大的绝对增益在基于集成的方法中观察到。XGBoost从95.4提高到97.7%,而梯度提升从93.8上升到96.5%,确认了CRISP增强甚至高性能模型的能力。随机森林也受益,从92.9增加到95.6%。更简单的模型,如KNN和DT,表现出较小但仍然有意义的改进,突出了CRISP支持跨 diverse 建模范式泛化的能力。这些改进突出了CRISP组件的累积好处:相关性修剪、特征选择和SMOTE平衡,这些共同减少噪声、增强判别信号和减轻类别不平衡。值得注意的是,增益在两种评估方案下都是鲁棒的, suggesting 改进不是特定于评估策略。
图6显示了在整体协议下五种分类器的ROC曲线,比较基线模型(淡紫色)和CRISP(橙色)。折平均迹线与±1 SD ribbon 表明CRISP consistently 将曲线移向左上,改进敏感性-特异性权衡和类分离。增益在KNN和DT中最明显,而集成模型也显示精炼性能和减少的变异性,反映了特征修剪和类重新平衡的好处。
图7显示了XGBoost在二元PD-versus-healthy任务上的混淆矩阵,比较基线(面板1)和CRISP(面板2)。每个矩阵是五个交叉验证折的平均,行归一化用于类级别比较。CRISP sharply 减少假阴性(9%→1%),只有假阳性的轻微上升(2%→3%),将准确性从95提高到98%。这种精炼的错误分布突出了改进的敏感性和稳定性,在临床上下文中特别有价值。其他分类器和个体层面评估的等效矩阵(补充图S2–S11)显示类似趋势。图7(面板3–4)显示了XGBoost的多类严重分类混淆矩阵,比较基线和CRISP。基线显示相邻阶段之间的混淆(例如,等级1和2),而CRISP大大减少了 off-diagonal 错误,提高了准确性,并锐化了细粒度分级的决策边界。所有分类器的完整结果在补充图S7–S11中。
在多类严重程度分级任务中,目标是将帕金森患者分配到三个Hoehn & Yahr(H&Y)阶段之一:0、1或2,基于他们的步态周期特征。表2 presents 了在整体和个体层面(患者层面)评估协议下跨五种ML分类器的分类性能摘要。 proposed CRISP管道 consistently outperformed 基线跨所有指标:准确性、精确度、召回率、特异性和F1分数。在整体评估下,CRISP yielded 强劲改进 across the board 与集成分类器(XGBoost和梯度提升)实现最高性能。个体层面评估, which 模拟现实世界临床决策,进一步验证了CRISP的诊断效用。当预测在患者层面聚合时,分类性能保持稳定或改进,反映了模型在跨多个步态周期生成一致决策方面的可靠性。性能改进的视觉概述在补充图S1中提供, which 显示雷达图比较基线和CRISP管道跨各种指标用于每个分类器。CRISP多边形在每个图中包围了更大的区域, indicating 跨所有指标的增益。改进在梯度提升和XGBoost下特别明显,在个体层面协议下 recall 和F1分数的增加表明 heightened 能力正确识别和区分密切相关的严重级别。详细细目包括在补充表S5–S8中, offering 对CRISP对个体H&Y阶段预测影响的更深入洞察。
图5(右面板)呈现了分组条形图,说明了每个分类器在多类严重程度分级任务上实现的准确性,比较基线性能和应用CRISP管道后实现的性能。与二元分类结果一样,准确性改进在跨所有五种模型 following CRISP预处理后观察到。XGBoost记录了最高的整体准确性,从基线管道下的97.6%增加到CRISP后的98.1%。梯度提升紧随其后,具有类似的上升趋势。甚至较弱的模型,如决策树和k-最近邻,受益于CRISP精炼,显示非平凡的准确性提升 despite 他们的较低基线性能。这些结果突出了CRISP在保留与帕金森严重级别相关的细微类边界方面的有效性,同时减轻问题,如类别不平衡和多重共线性。通过简化特征空间和应用合成重采样在折感知方式中,CRISP增强了每个模型学习细粒度决策规则而没有过拟合的能力。
为了评估个体管道组件的贡献,我们进行了一项 focused 消融研究 on 两个性能最佳的分类器梯度提升和XGBoost,通过选择性地移除基于RFE的特征选择和SMOTE采样。如附录表S9中总结,两个组件都有助于改进性能:移除任一个导致准确性和F1分数的下降。虽然这是一个初步分析,它支持CRISP管道设计的功效。
为了研究CRISP管道如何增强潜在类结构,我们应用t-分布随机邻域嵌入(t-SNE)到性能最佳模型的类概率输出。这种方法将高维softmax向量投影到二维空间,同时保留局部邻域关系。图8显示了这些t-SNE嵌入 for 前三 performing 模型:随机森林、梯度提升和XGBoost, both before(顶行) and after(底行)CRISP。每个点代表一个步态周期,颜色编码 by 真实Hoehn & Yahr等级。Pre-CRISP图显示 substantial 重叠,特别是在相邻类之间,如等级0–1和1–2。相反,CRISP增强的嵌入表现出更 tight intra-class 聚类和更清晰的严重级别之间的分离。等级3(红色), previously 分散,在CRISP后变得显著更 cohesive,而 mild(蓝色)和 moderate(橙色/绿色)阶段之间的边界锐化 significantly。这些模式表明CRISP不仅优化了分类边界,而且重塑了决策流形以反映有意义的概率结构。这种分离对临床部署场景特别重要,其中可解释性和对模型置信度的信任至关重要。
我们使用双尾配对t检验验证了CRISP的改进,跨准确性、精确度、召回率、特异性和F1分数,在交叉验证折上评估。测试分别为二元和多类任务运行。补充表S10总结了二元结果,显示统计显著增益,特别是在准确性、召回率和F1分数中,而非显著情况(主要是特异性)被透明报告。多类结果(补充表S11)确认CRISP的增强是一致的和统计鲁棒的跨模型和任务。
CRISP实现的性能增益可归因于三个顺序增强:相关性修剪、特征消除和类重新平衡。这些阶段中的每一个都引入了 targeted 改进,共同提升了分类器泛化能力和可解释性。相关性修剪移除冗余输入,稳定特征重要性,并产生一个鲁棒的10特征子集(图2)。RFE进一步精炼集合, consistently 识别步态速度、步频、站立-摆动比率和站立变异性作为临床相关的预测因子,同时丢弃信息较少的步态时间指标。这种简化的输入改善了泛化,并帮助更简单的模型,如KNN和DT,接近集成性能(图3)。SMOTE平衡训练折内的类别,并纠正类别不平衡,特别是在多类严重程度分级中提升召回率和F1分数。混淆矩阵(图7)确认 fewer 相邻等级错误和CRISP后Stage 3的完美召回。 collectively,这些阶段产生更紧凑、稳定和临床可解释的模型。ROC曲线(图6)决定性地移向左上, indicating 更高的可辨别性和减少的分类器变异性。此外,t-SNE投影(图8)揭示CRISP重塑潜在概率空间以增强类间分离,这是诊断系统中可信概率输出的基本属性。
CRISP最强的性能增益出现在个体层面评估协议下, which 将周期层面预测 collapse 成单一患者层面决策。这种方法模拟真实临床工作流, where 医生基于 per-subject 诊断而不是 per-stride 分类行动。如表1和图4(底行)所示,CRISP导致跨分类器的召回率和特异性的 substantial 改进,特别是对于XGBoost和梯度提升。个体层面混淆矩阵(图7)确认较低的假阴性率,而雷达图(补充图S1) reinforced 跨患者队列的增益鲁棒性。这种个体感知评估也有助于检测系统错误分类模式,这些模式可能在汇集周期层面指标中被掩盖。CRISP维持高个体层面准确性的能力, without 牺牲敏感性,将其定位为个性化、实时帕金森筛查的可行工具。
Beyond 准确性,现实世界部署需要轻量级模型和低推理延迟。在这方面,梯度提升和XGBoost提供了预测性能和硬件可行性之间的最佳平衡。GB模型占用 approximately 10 MB,并在标准智能手机CPU上在几毫秒内产生预测。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号