编辑推荐:
电子健康记录(EHRs)中缺失数据影响分析,研究人员开展 Pympute 工具开发及缺失值插补研究,对比十种算法,发现 Flexible 方法性能更优,揭示数据分布影响,为 EHRs 分析提供有效方案。
在医疗信息化高速发展的今天,电子健康记录(Electronic Health Records, EHRs)如同一位不知疲倦的守护者,默默记录着患者的诊疗信息,为医疗研究和临床决策提供了丰富的数据宝藏。然而,这位守护者身上却存在着难以忽视的 “瑕疵”—— 数据缺失问题。EHRs 中的缺失数据可能源于记录错误、 workflow 差异、多源数据聚合复杂等多种原因,这不仅会导致数据质量下降,还会对基于机器学习的医疗研究产生严重干扰,如模型偏差增大、统计效力降低等。如何高效、精准地填补这些缺失数据,成为了摆在研究者面前的一道难题。
为了攻克这一挑战,宾夕法尼亚州立大学医学院(Penn State University College of Medicine)等机构的研究人员开展了一项具有重要意义的研究。他们开发了一款名为 Pympute 的 Python 软件包,旨在为 EHRs 的缺失值插补提供全面、灵活的解决方案。相关研究成果发表在《Scientific Reports》上,为 EHRs 数据的有效利用打开了新的局面。
研究者在这项研究中采用了多种关键技术方法。首先,他们构建了包含 MIMIC、Geisinger、Penn State Health 等真实世界 EHR 数据集以及模拟数据集的多中心研究队列。然后,运用留一法(holdout analysis)对十种机器学习插补算法(包括线性回归(Linear Regression, LR)、随机森林(Random Forest, RF)等)和 Pympute 的核心算法 Flexible 进行性能评估,通过均方根误差(Root Mean Square Error, RMSE)和平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)等指标来衡量插补效果。此外,研究还涉及数据模拟、偏度分析等技术,以深入探究数据分布特征对插补算法选择的影响。
验证 Pympute 在 MIMIC 数据集上的效果
在 MIMIC 数据集(包含 8827 条记录和 45 个实验室变量)的研究中,通过对比不同算法的 RMSE 和 MAPE 值,发现 Flexible 算法表现出了显著优势,其 MAPE 和 RMSE 均为最低,且与表现第二的贝叶斯岭回归(Bayesian Ridge Regression, BRidge)算法相比,差异具有统计学意义(P<0.05),验证了 Flexible 算法在复杂 EHR 数据中的有效性。
宾夕法尼亚州立大学健康数据:Flexible 算法倾向选择非线性算法
针对 Penn State Health 的中风数据集(10811 例缺血性中风患者,43 个实验室变量),研究发现数据存在偏斜分布。Flexible 算法在该数据集上频繁选择非线性模型,如随机森林(RF)被选择 22 次,远超线性模型。尽管在 RMSE 指标上与 RF 差异不显著(P=0.28),但在 MAPE 上仍表现更优(P<0.05),表明数据偏度会显著影响算法选择,非线性模型在处理偏斜数据时更具优势。
盖辛格数据:Flexible 插补算法优于单一模型方法
在 Geisinger 真实世界中风数据集的分析中,Flexible 算法的误差率最低,再次证明了其优越性。岭回归(Ridge)算法虽表现次之,但也展现出一定竞争力。通过 P 值分析(MAPE 的 P=0.014,RMSE 的 P<0.05),进一步确认了 Flexible 算法在该数据集上的显著优势。
基于盖辛格电子健康记录数据的实验室数据模拟
研究者利用 Geisinger 数据模拟生成了符合多元正态分布的数据集,尽管模拟数据保留了协方差结构,但在算法选择上与真实数据存在差异。Flexible 算法在模拟数据上仍表现最佳,但线性模型更受青睐,而真实数据中非线性模型更优,这揭示了仅基于协方差的模拟可能无法反映真实数据的复杂特征,突显了真实数据研究的重要性。
缺失水平和分布偏度对插补性能和算法选择的影响
通过分析缺失水平和偏度与插补误差的相关性,发现缺失水平与 MAPE 的相关性较弱(Geisinger 数据 r=0.24,模拟数据 r=0.08),而偏度与 MAPE 在 Geisinger 数据中呈弱正相关(r=0.39),在模拟数据中几乎无相关性。这表明偏度是影响插补效果的重要因素,非线性模型在处理偏斜数据时更能提升准确性。
研究结论表明,Pympute 的 Flexible 算法在多种 EHR 数据集上均表现出优于传统单一模型的插补性能,其核心优势在于能够根据每个变量的特征智能选择最优算法,尤其是在处理偏斜数据时倾向于非线性模型,从而有效提升数据质量和模型性能。讨论部分指出,数据分布特征(如偏度、缺失机制)对算法选择至关重要,传统基于单一模型的插补方法可能无法适应 EHR 数据的复杂性,而 Pympute 为 EHR 数据的预处理提供了一种灵活、高效的解决方案。此外,研究还发现基于协方差的模拟数据可能无法完全复现真实数据的算法选择模式,提示在数据模拟中需考虑更多分布细节。该研究不仅为 EHRs 缺失数据的处理提供了新工具,也为后续基于 EHR 的机器学习研究奠定了坚实基础,有望推动精准医疗和临床研究的发展。