综述:流行病学中的电子健康记录:适宜的研究问题、常见偏倚及潜在敏感性分析

【字体: 时间:2025年06月06日 来源:Current Epidemiology Reports 3.0

编辑推荐:

  这篇综述深入探讨了电子健康记录(EHR)在流行病学研究中的应用,系统梳理了适宜的研究问题设计、常见偏倚(如信息偏倚、选择偏倚)及敏感性分析方法(如定量偏倚分析QBA),强调了自然语言处理(NLP)和大语言模型(LLM)在非结构化数据挖掘中的价值,为提升EHR研究的内部和外部有效性提供了方法论指导。

  

引言

电子健康记录(EHR)已成为流行病学和临床研究的重要数据源,但其设计初衷并非服务于科研。EHR数据包含丰富的临床信息(如实验室指标、影像报告),但80%为非结构化文本(如SOAP笔记),需依赖自然语言处理(NLP)工具解析。尽管存在数据碎片化、社会健康决定因素(SDoH)缺失等问题,EHR仍在弗林特水危机和COVID-19疫情监测等公共卫生事件中发挥了关键作用。

适宜的研究问题

EHR研究需关注数据可及性与可用性。例如,患者住址可通过地理空间数据链接补充社区级暴露指标,而住房状态等SDoH需从临床笔记中提取。多中心EHR数据库(如NIH的All of Us
)与保险索赔数据的联合分析可弥补单一系统的局限性。研究设计需区分描述性、预测性或病因性目标,并评估数据捕获链条(从就诊到记录)的完整性。

常见偏倚与敏感性分析

选择偏倚:患者就医行为导致样本非随机性,如肝炎C研究中的社区剥夺暴露与感染结局因就诊选择形成碰撞偏倚(见图1)。逆概率加权和边际结构模型可校正此类偏倚。
信息偏倚:ICD诊断代码灵敏度低(如门诊代码需多次出现以提高阳性预测值),定量偏倚分析(QBA)可通过蒙特卡洛模拟调整误分类影响。
知情存在偏倚:高频就诊者数据更完整,需通过访视次数调整或缺失数据模型处理。
未测量混杂:机器学习可识别隐藏混杂变量,而阴性对照法能评估健康寻求行为的影响。

数据操作化技术

自然语言处理(NLP)是解析非结构化EHR的核心工具。规则型算法(如关键词模式匹配)和大型语言模型(如RoBERTa)分别适用于不同场景。例如,凯撒医疗的NLP方案识别住房不稳定性灵敏度达100%,而范德比尔特大学的算法在1亿份笔记中AUC超0.9。

结论

EHR研究需结合传统流行病学框架与数据特性分析方法。未来方向包括:开发通用临床表型库(如VA-CIPHER)、优化LLM的“开箱即用”性能,以及通过跨系统数据链接提升观察完整性。正如作者强调,透明报告“表0”详述数据转化步骤,将显著增强研究可重复性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号