
-
生物通官微
陪你抓住生命科技
跳动的脉搏
电子健康记录中缺失数据处理方法的系统评价:从医学统计到机器学习的跨越
【字体: 大 中 小 】 时间:2025年02月10日 来源:Health Data Science
编辑推荐:
这篇综述系统评价了电子健康记录(EHR)中缺失数据的处理方法,比较了医学统计方法(如多重插补MICE)与机器学习方法(如生成对抗网络GAN、k近邻KNN)在不同缺失机制(MCAR/MAR/MNAR)和数据集类型(横断面/纵向)中的表现。文章指出机器学习方法在纵向数据中展现出优势,但缺乏通用解决方案,强调需要建立标准化评估体系。
背景与意义
电子健康记录(EHR)在医疗研究中的应用日益广泛,但数据缺失问题严重制约其价值发挥。约95%的美国医院和85.3%的中国医院已采用EHR系统,这些数据被用于临床试验、治疗效果评估、临床预测模型开发等多个领域。然而,缺失数据导致的分析偏差成为重大挑战。Rubin于1976年提出的缺失机制理论(MCAR、MAR、MNAR)为后续方法学研究奠定了基础。
研究方法
本系统评价遵循PRISMA声明,检索了MEDLINE、EMBASE和Digital Bibliography and Library Project数据库截至2024年3月30日的文献。纳入标准包括:英文原创文章、使用EHR数据集、评估缺失数据处理方法性能。最终纳入46项研究(2010-2024年),涉及MIMIC、UCI等公开数据集。
主要发现
缺失机制分布
在46项研究中,MCAR(63.0%)、MAR(43.5%)和MNAR(45.7%)机制均有涉及。仅3项研究报告了缺失模式(单调型2项,任意型1项)。37.0%研究的缺失率≤50%,32.6%≥50%。
方法学比较
传统医学统计方法中,链式方程多重插补(MICE)使用最广泛(54.3%)。机器学习方法中:
场景特异性分析
技术挑战与展望
当前面临三大核心挑战:
未来研究方向应聚焦:
实践建议
根据研究场景选择方法:
该综述为医学研究者提供了EHR缺失数据处理的决策路线图,强调需要根据数据类型、缺失机制和研究目的综合选择方法。尽管机器学习方法展现出优势,但医学统计方法在特定场景下仍不可替代,两种范式将长期并存互补发展。
生物通微信公众号
知名企业招聘