重症监护病房患者超声心动图报告的大规模开放数据库构建与心血管疾病研究应用

【字体: 时间:2025年07月06日 来源:Scientific Data 5.8

编辑推荐:

  本研究团队基于MIMIC-III数据库构建了包含43,472份ICU超声心动图报告的结构化数据库ECHO-NOTE2NUM,通过创新的分级数值编码系统将非结构化临床文本转化为可量化分析的数据。该研究解决了传统超声心动图报告难以进行大规模分析的难题,为心血管疾病机制研究、ICU患者分层管理和治疗效果评估提供了重要工具。数据库已通过PhysioNet开放获取,将促进重症医学领域的数据驱动研究。

  

在重症监护医学领域,超声心动图已成为评估心脏结构与功能的金标准技术。通过高频声波成像,临床医生能够实时观察心室收缩、瓣膜运动及血流动力学变化,为脓毒症休克、急性冠脉综合征等危重症的诊治提供关键依据。然而随着检查量激增,海量的非结构化文本报告成为阻碍知识挖掘的瓶颈——传统人工解读方式难以捕捉数万份报告中隐藏的疾病模式演变规律,更无法与电子病历中的生命体征、实验室数据实现自动化关联分析。

针对这一挑战,由哈佛医学院、麻省理工学院等机构组成的跨学科团队,基于著名的MIMIC-III重症数据库开展了突破性研究。研究人员从45,794份超声心动图报告中提取临床信息,创新性地建立了分级数值编码系统,将"左心房扩大"、"中度二尖瓣反流"等非结构化描述转化为标准化数值矩阵。这项发表于《Scientific Data》的工作,首次构建了全球规模最大的ICU超声心动图结构化数据库ECHO-NOTE2NUM,为心血管危重症研究提供了革命性工具。

研究团队采用自然语言处理技术对报告进行结构化转换。首先从MIMIC-III获取2001-2012年间Beth Israel Deaconess医学中心的ICU患者数据,通过正则表达式提取患者基本信息(身高、血压等)和检查参数(图像质量、造影剂使用等)。对于心脏结构与功能评估部分,开发了包含两个层级的分级编码系统:Schema1用于量化瓣膜病变(如主动脉瓣狭窄AV stenosis)和心室功能(如左心室收缩功能LV systolic),采用-3(无法评估)到3(重度异常)的8级分类;Schema2则处理右心系统参数(如右心房RA扩张),采用简化3级分类。通过医师参与的交叉验证,最终实现100%的编码准确率。

数据记录特征
数据库包含31,973份住院期间检查报告,覆盖21,572例患者。关键参数分布显示:左心室收缩功能异常率达32.7%(其中9.22%为重度异常),主动脉瓣反流(AV regurgitation)发生率28.47%,右心室压力负荷异常占3.19%。值得注意的是,45%的左心房(LA cavity)数据存在缺失,反映临床实践中不同参数的关注度差异。

技术验证
通过随机抽样100份报告进行人工复核,验证了编码系统的可靠性。对于矛盾描述(如同时出现"左心室功能正常"和"轻度减退"),系统设定特殊代码-50标记。这种设计既保留了数据完整性,又为后续分析提供质量控制节点。

应用场景
该数据库的突出价值体现在三方面:其一,支持心脏功能轨迹研究,如分析脓毒症患者左心室收缩功能(LV systolic)的动态变化与预后的关联;其二,提升治疗策略评估精度,通过结合血流动力学参数可比较不同升压药对瓣膜功能的影响;其三,推动人工智能应用,结构化标签为训练自然语言处理模型提供黄金标准。

这项研究开创性地构建了连接临床文本与量化分析的桥梁。分级编码系统既保留了原始报告的临床语义,又满足机器学习对结构化数据的需求。特别值得关注的是,数据库与MIMIC-III中其他模态数据(如生命体征、实验室检查)的无缝整合,使得多维度分析ICU患者心血管状态成为可能。随着人工智能在医疗领域的深入应用,ECHO-NOTE2NUM将成为研究心脏功能障碍机制、优化重症治疗方案的基石性资源,其方法论也为其他专科的临床文本结构化处理提供了示范模板。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号