机器学习助力糖尿病精准检测:混合特征提取与选择技术的突破

【字体: 时间:2025年02月07日 来源:Scientific Reports 3.8

编辑推荐:

  糖尿病(Diabetes Mellitus,DM)全球肆虐,早期精准检测迫在眉睫。研究人员运用 ABC、ABC - PSO 混合特征提取及 HS、DFA、EHA 元启发式特征选择算法,在 NITP 和 PIDD 数据集上研究。结果显示分类精度显著提升,为糖尿病诊断提供新方向。

  在全球范围内,糖尿病(Diabetes Mellitus,DM)已成为严重的公共健康挑战。据世界卫生组织(WHO)数据,2019 年非传染性疾病(NCDs)占全球死亡人数的 74%,其中糖尿病导致约 160 万人死亡,是第九大死因。预计到 2035 年,近 5.92 亿人可能受糖尿病影响,且 90% 为 2 型糖尿病。印度糖尿病患病率全球第二,大量未确诊病例使得早期检测需求极为迫切。
当前,利用机器学习技术检测糖尿病的研究虽多,但存在诸多问题。如使用 PIMA 印第安糖尿病数据集(PIMA Indian Diabetes Dataset,PIDD)的研究,受样本量小和类别不平衡影响,模型泛化性和准确性受限;基于卷积神经网络(CNNs)和图像转换的方法,计算复杂度高且可能存在数据偏差;纳入组学数据和量子模型的研究,虽有精度提升,但泛化性不足。

为解决这些难题,来自印度 KPR 工程技术学院电气工程系的 Dinesh Chellappan 和班纳里安曼技术学院电子与通信工程系的 Harikumar Rajaguru 开展了一项研究。他们提出一种新颖的两阶段机器学习框架,结合人工蜂群(Artificial Bee Colony,ABC)、粒子群优化(Particle Swarm Optimization,PSO)的混合特征提取方法,以及谐波搜索(Harmonic Search,HS)、蜻蜓算法(Dragonfly Algorithm,DFA)、大象放牧算法(Elephant Herding Algorithm,EHA)等元启发式特征选择技术。研究使用北欧胰岛移植项目(Nordic Islet Transplant Program,NITP)和 PIDD 两个公开数据集进行验证。该研究成果发表在《Scientific Reports》上,为糖尿病检测提供了新的思路和方法,对推动糖尿病诊断的发展具有重要意义 。

研究采用的关键技术方法如下:

  • 特征提取:运用 ABC 和 ABC - PSO 算法。ABC 算法模拟蜜蜂觅食行为,识别基因表达数据中的信息基因;ABC - PSO 算法结合 ABC 的探索性和 PSO 的微调能力,去除冗余特征,提升模型精度。
  • 特征选择:利用 HS、DFA 和 EHA 算法。HS 受音乐即兴创作启发,平衡特征探索与组合;DFA 模拟蜻蜓群体行为,通过分离、对齐等原则优化特征选择;EHA 受大象群体行为启发,有效识别重要特征。
  • 分类器训练与评估:使用非线性回归(Non - Linear Regression,NLR)、线性回归(Linear Regression,LR)等多种分类器,并采用 10 折交叉验证评估模型性能,通过计算准确率、F1 分数等指标衡量分类效果。

研究结果如下:

  • 特征提取分析:对 ABC 和 ABC - PSO 提取的特征进行统计分析,发现所选特征具有适度的均值和方差、最小的偏度,正峰度和低皮尔逊相关系数(PCC)表明这些特征可能对分类有用,但部分参数如样本熵等还需进一步研究。通过正态概率图和小提琴图分析,发现数据存在非高斯分布和非线性特征,凸显进一步特征选择的必要性。
  • 特征选择性能评估:通过 t 检验和 p 值评估特征选择方法的有效性。结果表明,ABC 和 ABC - PSO 在两个数据集中至少对一个类别(糖尿病或非糖尿病)实现了统计学显著结果(p 值 < 0.05),HS、DFA 和 EHA 在部分类别和数据集上 p 值较高,但分析趋势仍有意义,最终需通过分类准确率综合评估。
  • 分类器性能比较:在无特征选择情况下,支持向量机(Support Vector Machine,SVM)(径向基函数(Radial Basis Function,RBF)内核)在两个数据集上表现出色,如在微阵列数据上,ABC - PSO 特征提取结合 SVM(RBF)的准确率达 88.57%,F1 分数为 81.82%。在有特征选择情况下,不同特征选择方法对不同分类器性能影响各异。例如,HS 对微阵列数据上的 SVM(RBF)提升显著,使其准确率超 91%;DFA 对微阵列数据上的 SVM(RBF)也有良好效果,准确率达 91.43% ;EHA 对微阵列数据上的 SVM(RBF)提升最为显著,准确率高达 97.14%。在 PIDD 数据集上,SVM(RBF)同样表现强劲,结合不同特征选择和提取技术,准确率超 93%,部分情况下超 98%。

研究结论和讨论:
该研究通过结合混合特征提取和元启发式特征选择算法,显著提高了糖尿病预测的分类准确率。在 NITP 和 PIDD 数据集上,ABC - PSO 与 EHA 组合分别取得了 97.14% 和 98.13% 的最高准确率。这一成果表明该混合方法在识别糖尿病预测的信息特征方面效果显著,为基于机器学习的糖尿病诊断提供了更可靠的方法。

然而,研究也存在一定局限性。数据集规模和人口统计学范围有限,可能影响研究结果的泛化性;ABC - PSO 和元启发式算法的迭代计算成本较高,对实时临床应用构成挑战;模型缺乏可解释性,不利于临床决策。未来研究可从扩大数据集规模和多样性、优化算法效率、探索模型可解释性技术以及解决遗传数据使用的伦理问题等方面展开,推动该研究成果在实际临床中的应用,为全球糖尿病防治贡献力量。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号