赋能临床与转化研究团队：基于电子健康记录系统的定制化真实世界数据研究方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Clinical and Translational Science》：A Method to Enable Clinical and Translational Research Teams with Custom Real-World Data from Electronic Health Record Systems

【字体：大中小】 时间：2026年01月03日 来源：Journal of Clinical and Translational Science 2

编辑推荐：

　　本文针对临床与转化研究中真实世界数据（RWD）利用率低的挑战，介绍了威尔康奈尔医学院（WCM）通过构建定制化研究数据仓库（RDR）的创新解决方案。研究团队采用i2b2、REDCap和Microsoft SQL Server等成熟工具，支持数据探索、收集和分析三大工作流，并通过研究者资金承诺与机构补贴相结合的可持续模式，成功部署17个专科RDR。结果表明，该模式不仅保障了监管合规性，还显著提升了学术产出（如论文、基金）和本地质量改进活动，为学术医学中心实现RWD的规模化应用提供了可复制的实践框架。

在当今数据驱动的医学研究时代，临床与转化科学家们越来越依赖从电子健康记录（EHR）系统获取的真实世界数据（RWD）来生成真实世界证据（RWE）。这些数据为流行病学调查、预测模型构建、干预效果评估乃至人工智能应用提供了宝贵资源。然而，医疗机构和制药公司支持科研人员使用RWD时，却面临技术、治理、人力、可持续性等多重挑战。尤其当来自不同学科的科学家对疾病状态变量定义存在差异时，往往需要对源系统数据进行定制化转换，这对非信息学背景的研究者构成了巨大障碍。

传统上，学术医学中心（AMC）多采用“一刀切”的通用数据仓库来服务全院研究者，但这种方式常因临床概念定义失准、数据交付迟缓而难以满足特定研究需求。相反，由个别课题组管理的定制化仓库虽能提供更贴合需求的数据集，却可能因缺乏专业信息安全管理而危及患者隐私和机构声誉。更关键的是，现有文献尚未系统阐述如何为多个研究团队同时提供兼具定制性、合规性及财务可持续性的RWD支持方案。

针对这一痛点，威尔康奈尔医学院（WCM）的研究团队在《Journal of Clinical and Translational Science》发表论文，提出了一种以定制化研究数据仓库（RDR）为核心的新型解决方案。该研究假设：由中心信息技术（IT）部门管理的RDR，若采用现有工具（而非开发新系统）支持数据探索、收集与分析三大工作流，并要求研究者承担部分费用，将能规模化满足临床与转化团队的需求，同时确保监管合规。

为验证这一假设，研究团队依托其既有的“健康研究计算架构”（ARCH）平台，特别是名为“患者电子记录二次利用”（SUPER）的微软SQL Server数据库环境，为不同专科研究组构建定制RDR。每个RDR整合来自Epic、Allscripts SCM等异构系统的数据，并部署三大工具：i2b2用于支持研究者通过拖拽界面探索数据概念并获取患者计数；REDCap结合动态数据拉取（DDP）功能，用于采集EHR中未记录的新指标或注解现有数据；微软SQL Server则通过定制化数据市场（data mart）将原始数据转化为可直接用于统计分析的行列式数据集。

在监管合规方面，每个RDR均配备专属机构审查委员会（IRB）协议，确保数据仅用于合规研究。研究信息学团队担任“诚实经纪人”，通过ServiceNow系统标准化数据请求流程。财务上，研究者需承诺5万美元启动资金和7500美元年维护费，机构则提供补贴以覆盖部分成本。这种设计既通过经济承诺筛选出高投入度的团队，又借助中心IT管理保障了安全标准。

关键技术方法方面，研究依托SUPER基础设施实现多源数据提取、转换与加载（ETL），并为每个RDR定制三大组件：i2b2实例配备符合专科需求的定制本体；REDCap项目集成DDP实现EHR数据自动填充；SQL Server数据市场通过迭代开发定义分析就绪变量。研究队列可通过诊断码、医生接诊记录或特定IRB协议患者列表界定。

研究成果

2013至2025年间，WCM成功为17个研究组部署RDR，覆盖儿科、骨髓增殖性肿瘤、妇产科、肺重症医学等多个领域（表1）。这些RDR支撑了数十篇高水平论文产出，涉及神经病学、精神健康、疫苗安全性、COVID-19等前沿方向。例如，血液学团队利用RDR开发了基于血液学参数的治疗反应预测模型；健康信息学组通过自然语言处理（NLP）从临床笔记中提取社会健康决定因素（SDoH）。更值得注意的是，RDR成为跨学科合作的催化剂——一名研究协调员因深度参与RDR建设而完成生物医学信息学博士学位，多个团队凭借RDR获得NIH R01等重大基金资助。

讨论与演进

研究发现，单纯提供工具并不能消除非信息学家的使用壁垒，真正的关键在于临床医生、生物统计学家与信息学家之间的团队科学协作。自服务的i2b2查询功能使用率远低于预期，而能直接交付分析就绪数据集的SQL Server组件更受青睐。研究团队据此提出“数据转化谱系”概念：一端是原始EHR数据，另一端是统计就绪的平整文件，研究者根据自身统计资源选择适配的转化程度。

时间投入成为RDR成效的关键变量：拥有专职统计人员或能编码的首席研究员（PI）团队产出更快、分析更复杂；而时间受限的研究者则更多依赖i2b2进行前瞻性研究可行性评估。此外，RDR逐渐从单纯的IT基础设施产品演变为“数据合作伙伴关系”，强调从项目起始阶段即引入所有利益相关方，特别是生物统计学家，以避免后期工作流重构。

结论与意义

定制化RDR通过整合成熟工具、建立可持续财务模型和强化团队协作，为AMC提供了一条规模化支持RWD利用的有效路径。它不仅促进了从回顾性分析到预测模型部署的多类研究活动，更通过模块化设计（如可替换为OHDSI的ATLAS工具）保障了技术延展性。未来工作需进一步量化RDR的真实成本效益，并探索大语言模型（LLM）在多模态数据整合中的潜力。这项研究为全球AMC在合规前提下释放EHR数据价值提供了重要实践范本。

联系信箱：

粤ICP备09063491号

热点排行