
-
生物通官微
陪你抓住生命科技
跳动的脉搏
11643例儿童心血管疾病诊断的ECG数据库:填补儿科深度学习与精准医疗的数据鸿沟
【字体: 大 中 小 】 时间:2025年05月27日 来源:Scientific Data 5.8
编辑推荐:
本研究针对儿科心血管疾病诊断缺乏高质量ECG数据的难题,由郑州大学团队构建了全球最大开源儿童心电图数据集(ZZU pECG dataset),涵盖11643名0-14岁患儿14190条ECG记录(含3516条心血管疾病标签),采用500Hz采样率与AHA/ACC/HRS标准编码,首次实现中国儿童ECG诊断标准(CHN标准)与ICD-10疾病标签的系统整合,为儿科心血管AI模型开发奠定数据基石。
心血管疾病是全球头号健康杀手,世界心脏联盟2024年报告显示其死亡率高居榜首。更令人警惕的是,大量研究表明心血管疾病的种子早在儿童时期就已埋下。心电图(ECG)作为临床最常用的无创诊断工具,在心血管疾病筛查中具有不可替代的价值。然而当前ECG研究存在两大痛点:现有数据集几乎全部聚焦成人群体,且多数缺乏疾病诊断标签。这种数据鸿沟严重阻碍了人工智能在儿科心血管领域的应用——毕竟儿童与成人的ECG特征存在显著差异,从心率、波形到常见病种都截然不同。
面对这一挑战,郑州大学附属第一医院联合东南大学的研究团队在《Scientific Data》发表了突破性成果。他们历时6年(2018-2024)收集了11643名住院儿童的14190份ECG记录,构建了目前全球最大规模的儿科ECG开源数据库(ZZU pECG dataset)。这项研究不仅填补了儿科ECG数据的空白,更创新性地整合了心血管疾病诊断标签,为AI驱动的新型诊断工具开发提供了黄金标准。
研究团队采用多学科协作的技术路线:通过医院信息系统(HIS)与MedEx MECG-300设备采集原始数据,严格遵循伦理审查(批号2024-KY-0221-003);针对儿童特殊生理特点,独创9导联(7岁以下)与12导联(7岁以上)双轨采集方案;运用功率谱分布指数(pSQI)、基线漂移指数(basSQI)和搏动检测指数(bSQI)三重质量评估体系;创新性实现AHA标准与中国特色CHN标准的双编码转换,并基于ICD-10完成19类心血管疾病的系统标注。
背景与摘要揭示的核心发现是:该数据集包含6740名男童和4903名女童的记录,采样率500Hz,时长5-120秒,其中3516条记录标注有心肌炎、心肌病、先天性心脏病等典型儿科心血管疾病。与MIT-BIH、PTB-XL等知名成人数据集相比,其儿科样本量超现有资源总和(PTB-XL仅含41例0-14岁数据)。
方法学创新体现在三方面:一是年龄精确到天数的计算体系,解决了传统住院年龄的误差问题;二是首创基于临床共识的9导联兼容方案,克服幼儿胸壁发育不全的采集难题;三是建立动态住院期ECG-疾病关联规则,保留治疗过程中ECG演变的真实轨迹。
数据记录部分显示:92.91%记录集中在20-40秒最佳采集区间,13.97%含多重心血管标签(如先天性心脏病合并心肌炎)。图1-3揭示年龄性别分布特征——先天性心脏病在1岁以下婴儿中占比最高(1062例室间隔缺损),而川崎病高发于3-5岁组(194例)。
技术验证通过信号质量指数证明数据可靠性:pSQI在5-15Hz频段达标率81.2%,basSQI>0.9的优质记录占89.7%,bSQI>90%的搏动检测准确率达76.4%。表4-8详细统计了疾病共现率(64.9%记录含≥2种疾病标签)与ECG特征组合模式(49.8%含≥2项诊断陈述)。
这项研究的里程碑意义在于:首次建立儿科心血管疾病与ECG特征的标准化映射关系,突破西方AHA标准在中国儿童中的适用性局限。数据集已通过figshare开源(DOI:10.6084/m9.figshare.27078763),配套提供WFDB格式读取工具与质量评估代码。正如通讯作者Wang Zongmin强调的,该资源将加速三大方向研究:儿童特异性ECG解析算法开发、罕见病早期筛查模型训练、以及东西方儿童心血管差异的跨种群研究。未来团队计划纳入动态ECG与治疗随访数据,进一步丰富这个活体数据库的临床价值。
生物通微信公众号
知名企业招聘