《Journal of Clinical and Translational Science》:A Method to Enable Clinical and Translational Research Teams with Custom Real-World Data from Electronic Health Record Systems
编辑推荐:
本文针对临床与转化研究中真实世界数据(RWD)利用率低的挑战,介绍了威尔康奈尔医学院(WCM)通过构建定制化研究数据仓库(RDR)的创新解决方案。研究团队采用i2b2、REDCap和Microsoft SQL Server等成熟工具,支持数据探索、收集和分析三大工作流,并通过研究者资金承诺与机构补贴相结合的可持续模式,成功部署17个专科RDR。结果表明,该模式不仅保障了监管合规性,还显著提升了学术产出(如论文、基金)和本地质量改进活动,为学术医学中心实现RWD的规模化应用提供了可复制的实践框架。
在当今数据驱动的医学研究时代,临床与转化科学家们越来越依赖从电子健康记录(EHR)系统获取的真实世界数据(RWD)来生成真实世界证据(RWE)。这些数据为流行病学调查、预测模型构建、干预效果评估乃至人工智能应用提供了宝贵资源。然而,医疗机构和制药公司支持科研人员使用RWD时,却面临技术、治理、人力、可持续性等多重挑战。尤其当来自不同学科的科学家对疾病状态变量定义存在差异时,往往需要对源系统数据进行定制化转换,这对非信息学背景的研究者构成了巨大障碍。
传统上,学术医学中心(AMC)多采用“一刀切”的通用数据仓库来服务全院研究者,但这种方式常因临床概念定义失准、数据交付迟缓而难以满足特定研究需求。相反,由个别课题组管理的定制化仓库虽能提供更贴合需求的数据集,却可能因缺乏专业信息安全管理而危及患者隐私和机构声誉。更关键的是,现有文献尚未系统阐述如何为多个研究团队同时提供兼具定制性、合规性及财务可持续性的RWD支持方案。
针对这一痛点,威尔康奈尔医学院(WCM)的研究团队在《Journal of Clinical and Translational Science》发表论文,提出了一种以定制化研究数据仓库(RDR)为核心的新型解决方案。该研究假设:由中心信息技术(IT)部门管理的RDR,若采用现有工具(而非开发新系统)支持数据探索、收集与分析三大工作流,并要求研究者承担部分费用,将能规模化满足临床与转化团队的需求,同时确保监管合规。
为验证这一假设,研究团队依托其既有的“健康研究计算架构”(ARCH)平台,特别是名为“患者电子记录二次利用”(SUPER)的微软SQL Server数据库环境,为不同专科研究组构建定制RDR。每个RDR整合来自Epic、Allscripts SCM等异构系统的数据,并部署三大工具:i2b2用于支持研究者通过拖拽界面探索数据概念并获取患者计数;REDCap结合动态数据拉取(DDP)功能,用于采集EHR中未记录的新指标或注解现有数据;微软SQL Server则通过定制化数据市场(data mart)将原始数据转化为可直接用于统计分析的行列式数据集。
在监管合规方面,每个RDR均配备专属机构审查委员会(IRB)协议,确保数据仅用于合规研究。研究信息学团队担任“诚实经纪人”,通过ServiceNow系统标准化数据请求流程。财务上,研究者需承诺5万美元启动资金和7500美元年维护费,机构则提供补贴以覆盖部分成本。这种设计既通过经济承诺筛选出高投入度的团队,又借助中心IT管理保障了安全标准。
关键技术方法方面,研究依托SUPER基础设施实现多源数据提取、转换与加载(ETL),并为每个RDR定制三大组件:i2b2实例配备符合专科需求的定制本体;REDCap项目集成DDP实现EHR数据自动填充;SQL Server数据市场通过迭代开发定义分析就绪变量。研究队列可通过诊断码、医生接诊记录或特定IRB协议患者列表界定。
研究成果
2013至2025年间,WCM成功为17个研究组部署RDR,覆盖儿科、骨髓增殖性肿瘤、妇产科、肺重症医学等多个领域(表1)。这些RDR支撑了数十篇高水平论文产出,涉及神经病学、精神健康、疫苗安全性、COVID-19等前沿方向。例如,血液学团队利用RDR开发了基于血液学参数的治疗反应预测模型;健康信息学组通过自然语言处理(NLP)从临床笔记中提取社会健康决定因素(SDoH)。更值得注意的是,RDR成为跨学科合作的催化剂——一名研究协调员因深度参与RDR建设而完成生物医学信息学博士学位,多个团队凭借RDR获得NIH R01等重大基金资助。
讨论与演进
研究发现,单纯提供工具并不能消除非信息学家的使用壁垒,真正的关键在于临床医生、生物统计学家与信息学家之间的团队科学协作。自服务的i2b2查询功能使用率远低于预期,而能直接交付分析就绪数据集的SQL Server组件更受青睐。研究团队据此提出“数据转化谱系”概念:一端是原始EHR数据,另一端是统计就绪的平整文件,研究者根据自身统计资源选择适配的转化程度。
时间投入成为RDR成效的关键变量:拥有专职统计人员或能编码的首席研究员(PI)团队产出更快、分析更复杂;而时间受限的研究者则更多依赖i2b2进行前瞻性研究可行性评估。此外,RDR逐渐从单纯的IT基础设施产品演变为“数据合作伙伴关系”,强调从项目起始阶段即引入所有利益相关方,特别是生物统计学家,以避免后期工作流重构。
结论与意义
定制化RDR通过整合成熟工具、建立可持续财务模型和强化团队协作,为AMC提供了一条规模化支持RWD利用的有效路径。它不仅促进了从回顾性分析到预测模型部署的多类研究活动,更通过模块化设计(如可替换为OHDSI的ATLAS工具)保障了技术延展性。未来工作需进一步量化RDR的真实成本效益,并探索大语言模型(LLM)在多模态数据整合中的潜力。这项研究为全球AMC在合规前提下释放EHR数据价值提供了重要实践范本。