帕金森病分类中的平衡与特征选择策略:一种改进的序列特征选择方法

《Biomedical Signal Processing and Control》:Balancing and feature selection strategy for Parkinson’s disease classification: An improved sequential feature selection approach

【字体: 时间:2025年11月09日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  帕金森病(PD)早期诊断中,传统方法存在侵入性高、成本大等问题,本研究提出改进的顺序特征选择(ISFS)方法,结合SMOTE过采样与随机森林(RF)特征筛选,解决数据不平衡与高维特征问题。实验采用SVM、KNN、DT、NB、MLP、RF、XGB七种分类器,通过随机搜索交叉验证优化超参数,验证ISFS在PD诊断中的有效性。结果显示,KNN、RF、XGB和MLP模型准确率达100%,显著优于现有文献,同时提升模型泛化能力。

   Parkinson’s Disease (PD) 是一种影响全球数百万患者的神经退行性疾病。其主要特征包括运动功能障碍,如震颤、僵硬和运动迟缓,这些症状通常由大脑中多巴胺生成细胞的退化引起。由于 PD 的诊断对疾病的早期干预和治疗效果至关重要,因此开发更快速、高效和可靠的诊断方法成为研究的重点。然而,传统的 PD 诊断方法往往依赖于侵入性检查、昂贵的设备以及耗时的专家评估,这使得基于机器学习(ML)的诊断方法在近年来受到越来越多的关注。

在机器学习领域,模型的性能通常受到数据质量、特征选择和数据平衡等多方面因素的影响。特别是在医疗数据集中,由于样本分布不均衡(class imbalance)和高维特征的存在,模型的泛化能力和分类准确率常常受到限制。因此,如何有效处理这些问题,成为提升 PD 诊断准确性的关键。现有的研究中,常用的解决方案包括特征选择(Feature Selection, FS)和数据平衡技术,如过采样(oversampling)、欠采样(undersampling)以及类别加权(class weighting)。然而,这些方法在不同数据集上的效果可能存在差异,且单独使用时也可能带来一些问题,例如过采样可能导致模型过度依赖合成样本,而特征选择可能忽略少数类别中关键的特征。

为了克服这些挑战,本文提出了一种新的特征选择方法——改进的顺序特征选择(Improved Sequential Feature Selection, ISFS)。ISFS 方法结合了合成少数过采样技术(Synthetic Minority Oversampling Technique, SMOTE)和随机森林(Random Forest, RF)算法,通过在数据平衡前后进行特征选择,从而提升模型的分类性能和泛化能力。在 ISFS 框架下,SMOTE 用于解决数据不平衡问题,而 RF 算法则用于评估特征的重要性,以确定哪些特征对 PD 诊断最为关键。这种方法的优势在于,它不仅能够利用原始数据中的真实特征,还能通过数据平衡后的增强表示,进一步优化特征集合的分布和相关性。

为了验证 ISFS 方法的有效性,本文对七种不同的 ML 分类器(包括支持向量机、K近邻、决策树、朴素贝叶斯、多层感知机、随机森林和XGBoost)进行了实验评估。通过使用 RandomizedSearchCV 方法对这些分类器进行超参数优化,进一步提升了模型的泛化能力。实验结果表明,ISFS 方法在多个分类器中都取得了显著的性能提升,特别是在 KNN、RF 和 MLP 模型中,准确率甚至达到了接近 100% 的水平,远超现有文献中的研究结果。此外,ISFS 方法在提升模型的分类性能的同时,还增强了其在处理不平衡和复杂数据集时的泛化能力。

在 PD 诊断中,语音特征被认为是早期识别的重要生物标志物。通常,患者的语音会被录制下来,并从中提取诸如基频(fundamental frequency)、最小和最大频率、抖动(jitter)、 shimmer 和谐波-噪声比(harmonic-to-noise ratio)等特征。然而,这些特征的质量对 ML 算法的诊断准确率起着决定性作用。因此,如何在不损失关键信息的前提下,对这些特征进行有效的筛选,成为提高诊断准确性的关键步骤。本文提出的 ISFS 方法通过在数据平衡前后进行特征选择,不仅能够保留关键特征,还能避免因过采样导致的特征偏差问题。

本文的研究还探讨了特征选择和数据平衡顺序对模型性能的影响。传统的做法通常是在数据平衡之后进行特征选择,但这种方法可能会忽略少数类别中关键的特征。相反,如果在数据平衡之前进行特征选择,则可能无法充分反映少数类别的分布情况。因此,本文通过实验分析了这两种策略的优劣,并得出结论:在数据平衡后进行特征选择,能够更好地提升分类性能,尤其是在处理高维数据时,这种方法能够有效减少冗余特征的影响,提高模型的效率和准确性。

此外,本文还对模型的泛化能力进行了分析,采用了 Leave-One-Out Cross-Validation(LOSO-CV)和 Outer Cross-Validation(Outer-CV)两种方法。这两种方法在评估模型性能时,能够更全面地反映其在不同数据集上的表现。通过实验,本文发现 ISFS 方法在保持高分类准确率的同时,也能够显著提升模型的泛化能力,使其在面对新的数据时具有更强的适应性。

在实验过程中,本文使用了 Max Little 数据集,该数据集包含了大量 PD 患者的语音数据,以及相应的健康对照组数据。通过将这些数据用于训练和测试,本文验证了 ISFS 方法在实际应用中的有效性。实验结果显示,ISFS 方法在处理不平衡数据集时,能够有效提升分类器的性能,并且在不同分类器中的表现具有一定的通用性。特别是,在使用 KNN、RF 和 MLP 这些模型时,ISFS 方法能够显著提高其准确率,使其在 PD 诊断中具有更强的竞争力。

本文的研究还指出,现有的特征选择和数据平衡方法在处理 PD 数据时存在一定的局限性。例如,SMOTE + FS 策略虽然能够提升分类准确率,但也可能导致模型对合成样本产生过度依赖,从而影响其泛化能力。另一方面,FS + SMOTE 策略可能会忽略少数类别中关键的特征,导致分类结果不够准确。因此,ISFS 方法通过将这两种策略的优势结合起来,能够在不牺牲真实特征的情况下,提升模型的分类性能和泛化能力。

在进行特征选择和数据平衡的过程中,本文还对模型的超参数进行了优化。通过使用 RandomizedSearchCV 方法,对分类器的超参数进行随机搜索,以找到最优的组合,从而提高模型的性能。实验结果显示,超参数优化对分类器的性能提升具有显著影响,尤其是在处理高维数据时,优化后的模型能够更好地适应数据特征,提高分类准确率。

综上所述,本文通过提出 ISFS 方法,解决了 PD 诊断中特征选择和数据平衡的顺序问题,从而提升了分类器的性能和泛化能力。实验结果表明,ISFS 方法在多个分类器中都取得了显著的提升,特别是在 KNN、RF 和 MLP 模型中,准确率甚至达到了接近 100% 的水平。此外,ISFS 方法在处理不平衡和复杂数据集时,能够有效提升模型的分类性能,并增强其泛化能力。因此,ISFS 方法为 PD 的早期诊断提供了一种新的解决方案,具有重要的应用价值和研究意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号