急诊科多模态临床监测数据集MC-MED的构建与应用:COVID-19大流行期间的高分辨率生理与临床数据整合

【字体: 时间:2025年07月02日 来源:Scientific Data 5.8

编辑推荐:

  斯坦福大学团队发布首个整合连续生理监测与临床事件的急诊科多模态数据集MC-MED,涵盖2020-2022年118,385例急诊就诊数据,包含ECG、PPG波形及结构化电子健康记录(EHR),填补了急诊研究中高分辨率生理数据与临床事件关联的空白,为急性疾病演变和干预效果研究提供新范式。

  

急诊科作为医疗体系的前哨站,承担着急性疾病初诊和危重患者抢救的双重使命。然而,急诊患者往往以未分化的主诉就诊,其病情可能在数小时内急剧变化,这种动态特性使得传统电子健康记录(EHR)中离散记录的体温、血压等生命体征难以全面反映疾病演变过程。更棘手的是,床边监护仪产生的高分辨率生理波形数据(如每秒500采样点的ECG)通常因数据量大、隐私问题和技术壁垒而未被整合进研究数据库,造成急诊医学研究的"数据断层"。斯坦福大学团队在《Scientific Data》发表的MC-MED数据集,首次实现了连续生理监测与完整临床轨迹的深度耦合,为破解这一难题提供了关键基础设施。

研究团队从斯坦福大学医学院急诊科2020-2022年的临床数据仓库中,系统整合了三个维度的信息:Philips IntelliVue监护仪采集的ECG、PPG和呼吸波形(以WFDB格式保存),结构化EHR数据(包括医嘱、检验结果和出院诊断),以及经过BERT模型脱敏的放射学报告文本。通过创新的患者级时间偏移算法(所有时间戳随机平移至2150-2350年间但保持季节一致性),在严格遵循HIPAA隐私规则前提下,构建起包含70,545名患者、118,385次就诊的纵向数据集。特别值得注意的是,该数据集完整覆盖COVID-19大流行高峰期,为研究新发传染病对急诊流程的影响提供了独特视角。

技术方法概要
研究采用多源数据融合技术:① 从Epic EHR提取结构化临床数据;② 使用Philips PIC iX DWC Toolkit捕获监护仪波形;③ 开发基于Python WFDB库的波形分段算法(剔除10秒以上信号丢失段);④ 应用MIDRC Penn Deidentifier对放射报告脱敏;⑤ 设计两种数据分割方案(随机/时序)避免信息泄漏。样本来源于斯坦福医疗中心急诊监护床位就诊的成年患者。

数据记录特征
1. 多模态时间序列


通过图1可见数据的时间异质性:医生医嘱(a)与生命体征趋势(b)形成干预-响应闭环,而ECG/PPG波形(c)可揭示药物注射等瞬时生理反应。这种毫秒级时间对齐在既往急诊数据集中从未实现。

2. 去标识化体系


图2展示的四层脱敏架构确保数据可用性与隐私保护的平衡:MRN/CSN替换为随机整数,年龄扰动±2岁,时间戳整体平移但保持事件间隔,放射报告经自然语言处理清洗。该方法通过IRB伦理审查,为敏感医疗数据共享树立新标准。

3. 急诊特异性指标
数据集包含12类动态生命体征(如5min_HRV心率变异性)、急诊严重指数(ESI)分级、72小时内返诊预测标签等急诊特有指标。与MIMIC-IV-ED对比,MC-MED的监测频率提升60倍(1分钟vs. 1-4小时),且新增PPG灌注指数等微循环参数。

结论与展望
MC-MED的三大突破性价值在于:① 首次实现急诊全程高分辨率生理信号与临床事件的毫秒级对齐,为构建"数字孪生"急诊患者模型奠定基础;② 通过创新的时空脱敏技术,解决波形数据共享的伦理瓶颈;③ 包含大流行期间的特殊病理生理模式,为公共卫生危机研究提供珍贵基线。研究团队已基于该数据集开发MC-BEC急诊临床预测基准,证实其在早期预警(AUROC 0.82-0.91)和资源优化方面的应用潜力。未来可通过联邦学习等技术扩大数据多样性,推动急诊医学进入多模态智能决策时代。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号