编辑推荐:
心血管疾病已成为全球首要死因,严重威胁公众健康。研究人员整合群体智能特征选择算法(如 WOA、CSA 等)与机器学习技术,研究其对心血管疾病早期诊断的影响。结果显示,不同算法在不同数据集上表现各异,该研究为早期诊断提供了有力支持。
随着全球老龄化加剧和人们生活方式的改变,心血管疾病(CVD)如同潜伏在暗处的 “健康杀手”,悄然成为了世界范围内导致死亡的首要原因。在过去的 30 年里,CVD 的患病率和死亡率一路攀升,患病人数从 2.7 亿激增至 5.4 亿,死亡人数也从 1210 万飙升到 1860 万 。据估算,到 2030 年,全球心血管疾病的医疗费用将高达 1.044 万亿美元,这不仅给患者及其家庭带来了沉重的负担,也对公共卫生体系造成了巨大的压力。
早期准确地预测心血管疾病,就像是在与病魔的赛跑中抢占先机,对于降低发病率和死亡率至关重要。然而传统的预测方法就像老旧的武器,在面对复杂多变的心血管疾病时,往往缺乏足够的 “杀伤力”,难以精准地识别疾病的早期迹象。而人工智能时代的到来,尤其是机器学习(ML)和深度学习技术的发展,为心血管疾病的预测带来了新的希望之光。不过,在实际应用中,这些技术也遇到了重重挑战。大量数据中的特征数量呈爆炸式增长,过多的特征就像杂草一样,不仅会导致模型出现过拟合的问题,使其在面对新数据时 “水土不服”,还会增加计算的复杂性和训练时间,严重影响模型的整体效率。
为了攻克这些难题,来自蚌埠医学院的研究人员挺身而出,开展了一项极具意义的研究。他们巧妙地将群体智能特征选择算法,包括鲸鱼优化算法(WOA)、布谷鸟搜索算法(CSA)、花授粉算法(FPA)、哈里斯鹰优化算法(HHO)、粒子群优化算法(PSO)和遗传算法(GA),与机器学习技术紧密结合,致力于提高心血管疾病的早期诊断水平。
研究人员精心挑选了两个具有代表性的数据集:来自 Kaggle 平台的心脏病综合数据集,它整合了克利夫兰、长滩退伍军人管理局、瑞士和匈牙利的心脏病数据;以及著名的弗雷明汉(Framingham)数据集。在研究过程中,他们首先对数据进行了预处理,包括处理缺失值、标准化数据和进行数据可视化分析。接着,运用六种群体智能算法对数据进行特征选择,并在不同种群规模下对算法的性能进行了深入比较。之后,将筛选出的最优特征子集输入到十种不同的分类模型中进行训练和测试,最后通过多种评估指标对模型的性能进行了全面评估。
研究结果令人眼前一亮。在综合数据集上,当种群规模为 25 时,布谷鸟搜索算法(CSA)表现出色,筛选出 9 个关键特征,随机森林(RF)、极端梯度提升(XGBoost)、自适应提升(AdaBoost)和 k 近邻(KNN)模型的加权得分均达到 1,展现出卓越的性能。而在弗雷明汉数据集上,当种群规模为 50 时,鲸鱼优化算法(WOA)表现最佳,筛选出 10 个特征,k 近邻(KNN)模型的加权得分高达 0.92,成为该数据集上的佼佼者。
这项研究成果意义非凡,为心血管疾病的早期诊断提供了新的有力工具,有助于医生更早地发现疾病迹象,为患者争取宝贵的治疗时间。同时,也为后续的相关研究奠定了坚实的基础,推动了心血管疾病诊断领域的发展。
在研究方法上,研究人员主要运用了以下关键技术:一是数据处理技术,针对不同类型变量采用不同策略处理缺失值,使用 StandardScaler 进行数据标准化;二是采用六种群体智能算法(WOA、CSA、FPA、HHO、PSO、GA)进行特征选择;三是运用多种分类模型,如传统 ML 分类器、集成学习分类器和深度学习分类器进行模型训练与测试;四是使用 5 折交叉验证和多种评估指标(准确率、精确率、召回率、AUC 值、F1 分数)评估模型性能123。
下面详细介绍研究结果:
- 特征选择结果比较:研究系统考察了六种算法在两个数据集上的性能,不同种群规模(10、25、50)下各算法运行 50 次。综合数据集上,FPA 和 PSO 算法性能波动大;WOA 在种群规模为 25 时表现较好。弗雷明汉数据集上,WOA 和 HHO 在种群规模为 50 时,收敛速度和稳定性更佳。综合分析得出,综合数据集上 CSA 在种群规模 25 时性能最佳;弗雷明汉数据集上 WOA 在种群规模 50 时表现最优45。
- 特征选择后不同数据集模型结果比较:为评估模型,研究采用五种性能指标,针对弗雷明汉数据集的不平衡问题,合理分配指标权重。综合数据集上,RF、XGBoost、AdaBoost 和 KNN 模型表现优异,加权得分均为 1;弗雷明汉数据集上,KNN 模型表现最佳,加权得分 0.9267。
- 对比研究:与相关研究对比,CSA 在平衡数据集上优势明显,少量迭代就能快速定位最优解;WOA 在处理不平衡数据集时,虽需更多迭代,但能充分探索找到最优解。研究还发现两个数据集变量组成不同,影响诊断准确性,若在弗雷明汉数据集中引入更多客观生化指标,或可提高诊断模型准确性89。
研究结论表明,在不同数据集上,群体智能算法表现各有优劣。在综合数据集上,CSA 在种群规模为 25 和 50 时,稳定性和计算效率良好;在弗雷明汉数据集上,WOA 计算效率较高。不同模型在不同数据集上的表现也有所差异,RF、XGBoost、AdaBoost 和 KNN 在综合数据集上表现突出,而 KNN 在弗雷明汉数据集上表现最佳。
然而,该研究也存在一定的局限性。研究范围局限于心血管疾病,未涉及多模态数据集,且实验设计中特征选择算法的验证过程仅迭代 50 次,可能影响结果的优化和稳定性。未来的研究可以进一步拓宽研究范围,整合更丰富的心血管数据集,增加迭代次数,以提高心血管疾病早期诊断的准确性,为临床干预提供更可靠的依据。这项发表于《Scientific Reports》的研究,为心血管疾病早期诊断领域开辟了新的道路,让我们在对抗心血管疾病的征程中又前进了一步 。