利用图表审查中未确定病例增强基于电子健康记录的关联研究

【字体: 时间:2025年06月09日 来源:Journal of Biomedical Informatics 4.0

编辑推荐:

  本研究针对电子健康记录(EHR)关联研究中表型算法误分类和人工图表审查效率低的问题,创新性提出TriCA方法,整合二元算法表型和三元人工审查表型数据。通过模拟和真实世界数据验证(ADRD和SBCE队列),该方法较随机抽样估计提升MSE达28.3%,较纯人工审查提升效率50.8%,为罕见病研究和临床决策提供高效分析工具。

  

在数字化医疗时代,电子健康记录(EHR)已成为疾病研究和风险预测的宝库。然而,基于EHR的关联研究面临三重困境:自动化表型算法存在误分类风险,人工图表审查耗时耗力,而临床实践中常出现无法明确判断的"未确定"病例。更棘手的是,对于阿尔茨海默病及相关痴呆(ADRD)等复杂疾病,图表审查中超过半数病例可能被标记为"未确定",这导致珍贵的数据资源被白白浪费。与此同时,在乳腺癌复发等罕见事件研究中,传统随机抽样方法又面临样本失衡的挑战。

针对这些现实难题,来自中国的研究团队开发了创新性的三元图表审查表型整合成本效益增强估计(TriCA)方法。这项发表于《Journal of Biomedical Informatics》的研究,通过巧妙整合全队列的二元算法表型与子集的三元人工审查表型(包含"是/否/未确定"三类),在模拟数据和真实世界队列中均展现出显著优势。研究团队采用病例对照抽样策略优化验证集构建,建立增强估计方程整合两类数据源,并通过Bootstrap法评估估计效率。

数据结构和符号
研究定义了关键变量:Y表示三元金标准表型(0=无病,1=病例,2=未确定),S为二元算法表型,X为协变量。通过建立P(Y|X,S)的logistic模型,将算法表型信息转化为辅助变量,增强小验证集的统计效能。

模拟研究设置
在包含10,000例患者的模拟数据中,设置不同疾病流行率(1%-20%)和协变量效应量。结果显示,在5%疾病流行率下,TriCA较随机抽样方法降低28.3%的均方误差(MSE),较纯人工审查方法提升33.3%效率。当X2
处理效应为0.4时,TriCA的95%置信区间覆盖率保持在93.7%-96.2%。

数据评估
在ADRD实际应用中,TriCA成功整合384例图表审查数据(其中212例为"未确定"),使估计效率提升33.3%。在KPWA的1,021例SBCE队列中,该方法更实现50.8%的效率增益,显著提升了乳腺癌复发风险因素的检测能力。

讨论
该研究突破性地解决了EHR关联研究中的三个关键问题:首次系统处理了人工审查中的"未确定"病例,通过替代依赖抽样策略优化了罕见病研究设计,并建立了不依赖误分类率准确设定的稳健估计框架。临床意义在于,TriCA方法使研究者能够充分利用昂贵的图表审查资源,特别是对ADRD等诊断复杂的疾病,为精准医学研究提供了新范式。

结论
TriCA方法通过创新性地整合三元人工审查表型与二元算法表型,克服了传统EHR关联研究的局限性。该方法在保持无偏估计的同时显著提升统计效能,为罕见病风险因素识别、药物警戒和临床决策支持系统开发提供了强有力的分析工具。未来研究可进一步拓展至多分类表型和纵向数据分析场景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号