
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于动态k-NN算法的糖尿病与乳腺癌预测模型:提升医疗数据分类的精准性与效率
【字体: 大 中 小 】 时间:2025年05月14日 来源:Computers in Biology and Medicine 7.0
编辑推荐:
针对传统k-NN算法固定k值导致分类性能受限的问题,研究人员提出动态k-NN模型,通过自适应调整k值优化糖尿病(PIMA数据集)和乳腺癌(BCW数据集)的预测。实验显示,该模型准确率分别达81.17%和97.37%,F1分数为65.93%和92.5%,显著优于传统k-NN及其他ML算法(如SVM、RF),为早期疾病诊断提供了高效工具。
论文解读
糖尿病和乳腺癌是全球范围内威胁人类健康的两大疾病。国际糖尿病联盟(IDF)数据显示,2021年全球糖尿病患者达5.37亿,而乳腺癌在2020年新增病例超过230万例。早期诊断是降低死亡率的关键,但传统方法依赖人工解读,效率低且易出错。机器学习(ML)技术为这一问题提供了新思路,其中k-近邻算法(k-NN)因其简单性和可解释性被广泛应用。然而,传统k-NN采用固定k值,难以适应医疗数据的局部特征差异,导致分类性能不稳定。
为解决这一瓶颈,马来西亚国立大学(Universiti Kebangsaan Malaysia)的研究团队开发了一种动态k-NN模型,通过动态调整k值提升分类精度。该研究以PIMA糖尿病和乳腺癌威斯康星(BCW)数据集为对象,对比了动态k-NN与传统k-NN及其他ML算法(如逻辑回归LR、随机森林RF)的性能差异。论文发表于《Computers in Biology and Medicine》,为医疗数据分类提供了创新性解决方案。
关键技术方法
研究采用动态k-NN算法,通过构建k值区间[1-60]并基于局部数据密度选择最优k值。数据预处理包括归一化和特征选择,以消除噪声并提升模型泛化能力。实验评估指标涵盖准确率、精确率、召回率、F1分数及执行时间,对比了8种ML算法(如SVM、GB等)的性能。
研究结果
Related works
文献综述指出,现有ML模型(如SVM、RF)在疾病预测中表现优异,但固定k值的k-NN算法难以适应复杂医疗数据。动态参数调整被证明能显著提升模型性能。
Method
动态k-NN核心在于自适应k值选择:首先分析数据分布,通过交叉验证确定最优k值区间,再结合局部密度计算实时调整。数据预处理阶段采用Z-score归一化,特征选择基于方差分析(ANOVA)。
Results
在PIMA数据集中,动态k-NN准确率达81.17%,精确率83.33%,显著高于传统k-NN(74.5%)。BCW数据集中表现更优,准确率97.37%,召回率100%,F1分数92.5%,且执行时间缩短20%。
Conclusion
动态k-NN模型通过自适应k值优化,在糖尿病和乳腺癌分类中展现出卓越性能。其创新性在于平衡了算法复杂度和分类精度,为临床决策提供了高效工具。未来可扩展至其他疾病预测领域。
重要意义
该研究不仅解决了传统k-NN的局限性,还为医疗AI的实时应用提供了新范式。动态调整策略可推广至其他ML算法,推动精准医疗发展。研究获马来西亚国立大学FRGS基金支持,体现了学术与临床结合的实践价值。
生物通微信公众号
知名企业招聘