编辑推荐:
本研究聚焦于利用电子病历数据和机器学习算法对老年患者的认知功能进行分类,旨在提高轻度认知障碍(MCI)和痴呆的诊断准确性,为早期干预提供支持。
随着全球人口老龄化加剧,痴呆患者数量预计到2050年将显著增加,给医疗系统带来巨大挑战。目前,痴呆的诊断依赖于复杂的生物标志物和神经影像学检查,这些方法在初级保健机构中难以广泛应用。因此,开发基于电子病历(EMR)数据的高效诊断工具显得尤为重要。波兰克拉科夫技术研究所的研究人员利用机器学习算法,对283名老年患者(包括轻度认知障碍、痴呆患者及健康对照组)的电子病历数据进行分析,旨在通过简单、数据高效的机器学习模型实现对认知障碍的初步分类。研究结果表明,非线性支持向量机(SVM)和随机森林(Random Forest)算法在区分健康对照组与轻度认知障碍及痴呆患者方面表现优异,准确率分别达到69%和84%。该研究为利用电子病历数据进行认知障碍早期筛查提供了新的思路,其成果发表在《Scientific Reports》上。
为了开展这项研究,研究人员采用了多种关键技术方法。首先,他们从电子病历中提取了包括社会人口学变量、实验室检查结果、共病情况、功能量表评分等在内的数据。其次,通过统计分析(如方差分析)筛选出对分类任务最具影响力的特征变量。最后,运用机器学习算法(如非线性SVM和随机森林)对数据进行建模和分类,并采用10折交叉验证和网格搜索方法对模型进行优化和验证。样本队列来源于波兰卡托维兹的约翰·保罗二世老年病医院,数据收集时间为2015年至2019年。
研究背景与问题
随着全球人口老龄化趋势的加剧,痴呆症的发病率预计将在2050年显著增加,这将对全球医疗系统带来巨大的挑战。痴呆症的早期诊断对于延缓疾病进展和改善患者生活质量至关重要。然而,目前的诊断方法依赖于复杂的生物标志物检测和神经影像学检查,这些方法在初级保健机构中难以广泛应用。因此,开发基于电子病历(EMR)数据的高效诊断工具显得尤为重要。电子病历记录了患者的医疗历史、诊断、治疗和健康数据,是研究疾病进展和风险因素的宝贵资源。然而,以往的研究往往忽视了非影像学临床数据的二次利用,而这些数据具有低成本、非侵入性等优点。
研究方法与实验设计
波兰克拉科夫技术研究所的研究人员开展了一项研究,旨在利用电子病历数据和机器学习算法对老年患者的认知功能进行分类。研究对象包括283名老年患者,分为轻度认知障碍(MCI)、痴呆和健康对照组。研究人员从电子病历中提取了包括社会人口学变量、实验室检查结果、共病情况、功能量表评分等在内的数据,并通过统计分析筛选出对分类任务最具影响力的特征变量。随后,研究人员运用多种机器学习算法(如非线性支持向量机(SVM)和随机森林(Random Forest))对数据进行建模和分类,并采用10折交叉验证和网格搜索方法对模型进行优化和验证。
研究结果与结论
研究结果表明,非线性支持向量机(SVM)和随机森林(Random Forest)算法在区分健康对照组与轻度认知障碍及痴呆患者方面表现优异。对于轻度认知障碍(MCI)的分类,非线性SVM的准确率达到69%,AUC值为0.75;对于痴呆的分类,随机森林的准确率达到84%,AUC值为0.96。这些模型在区分健康对照组与认知障碍患者方面优于其他机器学习算法,如K最近邻(KNN)、多层感知器(MLP)、线性SVM、朴素贝叶斯(Naive Bayes)等。研究还发现,年龄、教育水平、维生素D3水平、钠水平、功能量表评分(如IADL和ADL)等是区分认知障碍患者与健康对照组的关键特征。
讨论与意义
该研究为利用电子病历数据进行认知障碍早期筛查提供了新的思路。通过机器学习算法,研究人员能够从电子病历中提取有价值的信息,为初级保健机构中的早期诊断提供支持。这种基于电子病历的初步筛查方法可以作为进一步神经心理评估或神经影像学检查的补充,有助于早期识别可能受益于进一步诊断的老年患者。此外,该研究还强调了在临床实践中利用电子病历数据的潜力,尽管数据质量、缺失值和数据录入错误等问题仍需解决。未来的研究可以进一步扩大样本量、纳入更多环境和医学变量,并探索电子病历数据在更年轻患者中的应用潜力。