基于马氏距离的特征选择方法提升早期帕金森病分类性能

【字体: 时间:2025年05月07日 来源:Computer Methods and Programs in Biomedicine Update CS5.9

编辑推荐:

  为解决高维数据集导致的分类器计算复杂度高、冗余特征干扰等问题,研究人员提出基于马氏距离(Mahalanobis distance)的特征选择方法,应用于帕金森病(PD)语音数据集。通过筛选与数据集协方差结构相关的收敛特征,将特征维度分别从22和45降至11和18,使KNN和RF分类器准确率最高提升至98.31%和95.83%,同时降低80%执行时间。该研究为医学诊断实时应用提供了高效特征优化方案。

  

帕金森病(Parkinson's disease, PD)作为仅次于阿尔茨海默病的第二大神经退行性疾病,全球每年影响数百万人。其典型病理特征是脑内多巴胺水平降低,导致运动障碍进行性恶化。目前临床诊断主要依赖主观观察和临床记录评估,但这类方法准确性不足且成本高昂。近年来,基于语音信号的机器学习诊断技术因其非侵入性和客观性成为研究热点,但高维语音特征带来的冗余信息、计算负担及"维度灾难"问题严重制约模型性能。

针对这一挑战,Victoria University的研究团队在《Computer Methods and Programs in Biomedicine Update》发表研究,创新性地将马氏距离(Mahalanobis distance)应用于PD语音特征选择。该方法通过量化特征与数据集均值向量的距离,结合协方差结构分析,筛选具有显著判别力的收敛特征。研究采用牛津大学Max Little提供的"Parkinson Disease Classification Dataset"(195例样本,22特征)和UCI的"Parkinson Dataset with Replicated Acoustic Features"(240例样本,45特征),通过Min-Max归一化预处理后,将数据划分为5-20样本的区块计算马氏距离,最终选择10%-70%的高区分度特征。

关键技术包括:1)基于区块的马氏距离计算(公式:D(xi)=√[(xi-μ)TS-1(xi-μ)]);2)动态特征百分比筛选(10%-70%);3)四类分类器(KNN、朴素贝叶斯(NB)、逻辑回归(LR)、随机森林(RF))性能对比;4)八项评价指标(准确率、F1-score、AUC-ROC等)验证。

4.1 无特征选择的分类器性能
在22特征数据集上,KNN基线准确率86.44%,RF为84.75%,但NB仅67.80%。45特征数据集中KNN表现最佳(88.89%),证实高维特征对部分分类器存在明显干扰。

4.2 特征选择后的分类器提升
采用15样本区块和50%特征比例时,KNN在22特征数据集准确率达98.31%(提升11.87%),F1-score 96.55%,AUC-ROC 99.62%。RF在45特征数据集以40%特征比例实现95.83%准确率(提升9.72%),执行时间减少53.34%。马氏距离有效剔除冗余特征,使KNN的FN(假阴性)降为0,RF的FPR(假阳性率)仅2.27%。

4.3 时间复杂度优化
特征维度缩减使KNN执行时间从256.97ms降至5.98ms(优化97.67%),NB降低80.03%,显著提升实时诊断可行性。

4.4 与同类研究对比
相较Chi-square(94.87%)、PCA(91.75%)等方法,马氏距离在特征数减少50%前提下,使KNN准确率超越现有最高记录(98.31% vs 94.87%),且RF在更复杂数据集(45→18特征)保持95.83%准确率。

该研究证实马氏距离能有效识别语音特征中的病理相关性模式:1)通过协方差矩阵修正特征间相关性,优于欧式距离;2)区块化计算增强对小样本异常的敏感性;3)动态百分比选择适应不同数据集特性。成果为PD早期诊断提供了兼顾准确性与效率的特征工程方案,其"收敛-发散"特征分离机制可扩展至其他高维医学数据分析。未来可探索与深度学习结合,以及在多模态医疗数据中的应用潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号