
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于电子健康记录的抗生素耐药性微生物数据集(ARMD):抗菌药物耐药性研究的新资源
【字体: 大 中 小 】 时间:2025年07月27日 来源:Scientific Data 5.8
编辑推荐:
斯坦福大学团队开发了抗生素耐药性微生物数据集(ARMD),该资源整合了15年间28万患者的电子健康记录(EHR)数据,包含微生物培养、55种抗生素药敏结果及临床特征。研究解决了AMR(抗菌药物耐药性)研究中临床与微生物数据割裂的问题,为抗菌药物管理、因果推断和临床决策提供了重要工具。数据集采用严格去标识化处理,支持AMR趋势分析、风险因素识别和预测模型构建。
抗生素耐药性(AMR)已成为全球公共卫生的重大威胁,每年导致数百万人死亡。面对这一危机,斯坦福大学(Stanford University)的研究团队开发了抗生素耐药性微生物数据集(ARMD),这项发表在《Scientific Data》的研究为AMR监测和防控提供了突破性工具。
微生物"超级细菌"的崛起令人担忧。数据显示,2019年全球约500万人死亡与AMR相关,其中127万直接归因于耐药菌感染。美国每年发生280万例耐药感染,造成超过3.5万例死亡。这种危机源于微生物进化出抵抗抗菌药物的能力,而临床和农业领域抗生素的滥用更加速了耐药菌的传播。然而,现有AMR研究数据往往局限于基因组学或流行病学单一维度,缺乏整合临床、微生物和患者特征的综合性资源。
斯坦福大学医学院的研究人员利用电子健康记录(EHR)系统,构建了包含28万患者、75万份微生物培养结果的ARMD数据集。该资源独特之处在于将微生物实验室数据(包括阴性培养结果)与患者 demographics(人口统计学特征)、用药史和临床指标相关联,时间跨度达15年(2008-2023)。研究采用严格的数据处理方法:通过STARR(斯坦福医学研究数据仓库)提取Epic EHR数据,使用MALDI-TOF(基质辅助激光解吸电离飞行时间质谱)和Vitek2进行微生物鉴定和药敏试验,并应用CLSI(临床和实验室标准协会)标准进行结果判读。数据去标识化遵循HIPAA(健康保险流通与责任法案)安全港方法,关键时间信息采用随机偏移处理。
研究结果部分展示了丰富的数据特征:
背景与摘要
ARMD覆盖尿液(50.0%)、血液(38.8%)和呼吸道(11.3%)三种关键培养类型。患者平均年龄56.7岁,女性占66.9%,反映了真实世界感染流行病学特征。

方法与数据采集
数据集采用四层架构:患者层面(年龄、性别、ADI<区域剥夺指数>)、临床背景(病房类型、抗生素暴露)、培养采集(实验室指标)和培养数据(微生物结果)。创新性地引入"隐含药敏"规则,如头孢唑林敏感可推断头孢曲松敏感,极大扩展了数据应用价值。区域剥夺指数>
数据记录
尿液培养中大肠杆菌(E. coli)占比超60%,血液培养呈现更复杂的病原谱,金黄色葡萄球菌(S. aureus)和凝固酶阴性葡萄球菌常见。值得注意的是,呼吸道培养中铜绿假单胞菌(P. aeruginosa)占主导,且区分了黏液型和非黏液型菌株。

技术验证
研究团队通过标准化微生物命名、交叉验证关键变量(如培养阳性率)确保数据质量。2008年Epic系统上线前的数据被标记为潜在不完整,体现了科学严谨性。

这项研究的意义深远。ARMD首次实现了微生物数据与临床情境的大规模整合,其多层次数据结构支持从分子机制到公共卫生政策的多维度AMR研究。特别有价值的是包含阴性培养结果,这对评估治疗效果和微生物清除动态至关重要。数据集采用的ADI指数和护理院访问记录,为研究社会经济因素对AMR的影响提供了新视角。
研究也存在一定局限,如真菌和病毒数据未纳入,且长期护理机构患者可能代表性不足。然而,ARMD的开放获取特性将加速AMR研究,特别是在机器学习预测模型开发和个性化抗生素选择算法优化方面。随着抗生素研发管线日益枯竭,这种数据驱动的方法可能成为对抗"超级细菌"的重要武器,为临床医生提供更精准的 empiric therapy(经验性治疗)决策支持,最终改善患者预后并减缓耐药性蔓延。
生物通微信公众号
知名企业招聘