HMLA:基于混合机器学习与缺失数据填补技术的卒中预测模型优化研究

《Scientific Reports》:HMLA: A hybrid machine learning approach for enhancing stroke prediction models with missing data imputation techniques

【字体: 时间:2025年12月21日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对临床数据中存在大量缺失值和无关特征导致卒中预测模型性能受限的问题,开发了一种结合信息增益比(IGR)特征选择、K近邻(KNN)缺失值填补和深度神经网络(DNN)分类的混合机器学习框架。在心血管健康研究(CHS)数据集上的实验表明,该模型准确率达94.32%,精确度95.96%,F1分数95.00%,显著优于传统机器学习方法。该研究为临床卒中风险早期筛查提供了高效可靠的解决方案。

  
在全球范围内,卒中(stroke)一直是导致死亡和长期残疾的主要病因之一。据世界卫生组织统计,每年有数百万人新发卒中,而印度卒中协会报告显示,印度每年有150万卒中患者,卒中已成为该国第二大死因。尽管医疗技术不断进步,但由于高血压、糖尿病、吸烟和心血管疾病等可改变危险因素的持续存在,卒中的全球负担仍在不断加重。早期准确识别卒中高风险个体,对于降低死亡率和致残率具有至关重要的意义。
随着数字健康系统的快速发展和大型临床数据集的可用性日益增加,人工智能(AI)和机器学习(ML)技术为卒中高风险人群的识别提供了新的机遇。这些数据驱动的方法旨在从患者数据中挖掘隐藏模式,这些模式可能通过常规临床评估难以发现。然而,构建可靠的卒中预测模型面临巨大挑战,主要源于医疗数据记录固有的局限性,例如普遍存在的数据缺失、无关特征和噪声。不准确、不完整的数据会严重削弱模型性能,导致准确性下降、估计偏差以及泛化能力不足。因此,有效的数据预处理,特别是特征选择和缺失值填补,对于提升预测性能至关重要。
尽管已有大量研究证明了ML和深度学习(DL)算法在卒中预测任务中的潜力,但许多现有工作依赖于合成数据集或受控环境下的数据,这些数据通常类别平衡、噪声小、维度低,与真实世界中不完整、不一致的医疗数据相去甚远。此外,在处理缺失值这一核心问题上,许多研究仍采用简单的列表删除、均值或中位数填补等方法,这些方法可能降低数据变异性并引入偏差。虽然K近邻(KNN)或链式方程多重填补(MICE)等更先进的方法更为稳健,但它们通常不加区分地应用于所有变量,忽视了特征选择与填补之间的交互效应,可能导致计算成本增加甚至扭曲特征间的关系。
为了系统性地解决这些挑战,M. Sheetal Singh、Khelchandra Thongam、Krishna Kumar和Prakash Choudhary等研究人员在《Scientific Reports》上发表了他们的研究成果。他们开发了一种名为HMLA的混合机器学习方法,旨在通过集成特征选择和选择性缺失数据填补来增强卒中预测模型的性能。该研究创新性地采用了信息增益比(IGR)进行特征选择,并结合KNN进行缺失值填补,最终利用深度神经网络(DNN)进行分类预测。
研究人员利用来自心血管健康研究(CHS)的复杂真实世界数据集进行验证。该数据集包含5888名个体的医疗记录,涉及416个属性,其中超过30%的数据存在缺失,且包含大量与卒中无关或存在录入错误的噪声特征,预处理挑战巨大。研究采用的三阶段预处理流程包括数据清洗、特征选择和缺失值填补。首先,设定了40%的缺失率阈值,剔除缺失率过高的属性,并移除非信息性特征,最终得到1840条记录(1260例卒中,580例非卒中)和147个特征。接着,利用C4.5决策树算法计算的信息增益比(IGR)对特征进行排序,筛选出与卒中预测最相关的15个关键特征,包括年龄(AGE)、高血压(HIBP)、糖尿病(DIABETES)、体重指数(BMI)、吸烟状况(SMOKE)等。然后,仅对这些选定的重要特征使用KNN算法(k=10)进行缺失值填补,而非对所有特征进行填补,这显著提高了数据质量并降低了计算复杂度。
在分类阶段,研究设计了一个包含输入层(15个神经元)、三个隐藏层(分别含25、15、10个神经元)和输出层(2个神经元)的DNN模型。隐藏层使用整流线性单元(ReLU)激活函数,输出层使用Softmax函数进行二分类。模型训练采用二元交叉熵损失函数,并利用蚁狮优化(ALO)算法来优化关键超参数,如学习率、各层神经元数量和丢弃率(Dropout rate)。为防止过拟合,模型还采用了丢弃层(Dropout=0.3)和早停(early stopping)策略。为了确保评估的公正性和稳健性,研究采用了严格的10折嵌套交叉验证方案,所有预处理步骤均在每一折的训练数据内部进行,完全避免了数据泄露。
本研究主要采用了基于信息增益比(IGR)的特征选择技术、K近邻(KNN)缺失数据填补方法、深度神经网络(DNN)分类模型构建与超参数优化(使用蚁狮优化算法ALO),并利用来自心血管健康研究(CHS)的包含5888名参与者、最初具有416个属性的真实世界临床数据集,通过10折嵌套交叉验证进行模型性能评估。

结果分析

模型整体性能

在10折嵌套交叉验证框架下,提出的IGR-KNN-DNN混合模型取得了优异的综合性能。具体评估指标的平均值±标准差如下:准确率(Accuracy)为94.32% ± 0.41,精确度(Precision)为95.96% ± 0.37,灵敏度(Sensitivity)或称召回率(Recall)为94.06% ± 0.52,特异度(Specificity)为94.67% ± 0.45,F1分数(F1-Score)为95.00% ± 0.33,受试者工作特征曲线下面积(ROC-AUC)为96.20% ± 0.90。较小的标准差表明模型在不同数据子集上性能稳定,泛化能力强。

与传统机器学习算法的比较

研究将提出的DNN模型与多种经典机器学习分类器进行了全面比较,包括支持向量机(SVM)、随机森林(RF)、逻辑回归(LR)、朴素贝叶斯(NB)、K近邻(KNN)、决策树(DT)和人工神经网络(ANN)。所有模型在相同的预处理流程和10折嵌套交叉验证设置下进行评估。结果表明,DNN模型在所有评估指标上均一致性地优于其他对比算法。在传统模型中,逻辑回归(LR,准确率89.58%)和随机森林(RF,准确率88.26%)表现相对较好,而KNN(准确率82.39%)和DT(准确率83.71%)等简单学习器性能稍逊。DNN的优异性能凸显了其捕捉人口统计学、生活方式和生理指标之间复杂非线性关系的能力,这是传统算法难以完全实现的。

不同缺失值填补方法的影响

为了评估KNN填补策略的有效性,研究还比较了其他常见的缺失值处理方法,包括均值填补(Mean Imputation)、中位数填补(Median Imputation)和列表删除(List-wise Deletion)。结果清晰地显示,在不同分类器上,KNN填补方法 consistently 地取得了最高的准确率。例如,对于DNN模型,使用KNN填补的准确率(94.3%)显著高于列表删除(90.5%)、均值填补(93.6%)和中位数填补(92.5%)。这一结果强调了在异质性临床数据集中,采用基于局部信息的填补方法在保持特征间依赖关系、减少偏差方面的优势。

讨论与结论

本研究成功开发并验证了一个高效的混合机器学习框架HMLA,用于卒中预测。该框架通过整合IGR特征选择、选择性KNN缺失值填补和DNN分类,有效应对了真实世界临床数据中常见的高缺失率、无关特征和噪声等挑战。研究表明,选择性填补(仅对重要特征进行填补)与先进的DNN分类器结合,能够在保持数据完整性的同时,显著提升模型的预测性能和计算效率。
该研究的主要贡献在于:1) 提出了一个集成的预处理框架,通过IGR和选择性KNN填补提升了数据质量和计算效率;2) 为CHS数据集设计并实现了高效的DNN分类器;3) 通过与传统ML算法的广泛比较,为卒中预测领域提供了可靠的性能基准;4) 展示了该模型通过常规临床特征识别高风险个体的潜力,有助于降低对昂贵诊断测试的依赖,提升临床适用性。
然而,本研究也存在一些局限性。首先,缺乏外部验证,模型的泛化能力需要在其他独立、地理分布不同的数据集上进行进一步测试。其次,CHS数据集本身存在一定的局限性(如特定老年人群、数据不平衡、录入错误等),可能引入偏差,影响模型在更广泛人群中的适用性。此外,研究仅使用了单一的优化算法(ALO)和相对简单的DNN架构,未来可探索更复杂的模型、其他优化方法以及集成学习技术来进一步提升性能。
总之,这项研究为利用混合机器学习方法处理不完整临床数据、构建高性能卒中预测模型提供了有价值的范例和见解。所提出的HMLA框架在准确性、效率和实用性方面展现出显著优势,为未来开发可部署于真实临床环境的卒中风险早期筛查工具奠定了坚实的基础。未来的研究方向包括外部验证、纳入多模态数据、增强模型可解释性以及探索更先进的缺失值处理和模型集成技术。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号