基于互联网媒体资源增强电子健康记录中死亡事实与日期信息的验证研究:来自两大医疗系统的证据
《American Journal of Epidemiology》:Augmenting fact and date of death in electronic health records using internet media sources: a validation study from two large healthcare systems
【字体:
大
中
小
】
时间:2025年11月29日
来源:American Journal of Epidemiology 4.8
编辑推荐:
本研究针对电子健康记录(EHR)中院外死亡信息缺失导致的死亡率低估问题,开发了基于自然语言处理(NLP)的互联网媒体数据提取方法。通过对Mass General Brigham(MGB)和Vanderbilt University Medical Center(VUMC)两大医疗系统78,848例死亡病例的验证表明,互联网媒体数据将死亡识别的灵敏度提高了18-24%,阳性预测值(PPV)达98%以上,为实时死亡率研究提供了可靠的数据补充方案。
在药物安全性和有效性评价中,死亡率是研究人员、临床医生和患者关注的重要结局指标。然而,现实世界数据源如电子健康记录(EHR)或保险索赔数据中,经常缺失发生在临床环境之外的死亡信息。这种死亡信息的低估会导致治疗有效性和危害性评估产生偏差,因此需要寻找替代数据源来补充EHR中的死亡信息。
目前美国的死亡追踪主要通过州和国家层面的生命统计登记系统进行。虽然电子死亡登记系统通常在24-48小时内完成报告,但这些数据需要1-2年才能公开使用。现有的全因死亡数据库如社会安全死亡指数(SSDI)、Census-Numident、CenSoc、国家死亡指数(NDI)、退伍军人管理局数据和医疗保险服务中心(CMS)数据都存在特定偏差、发布延迟或不易获取等问题。特别是2011年SSDI的监管变化导致大量州生命统计数据缺失,而NDI虽然准确性高但存在显著时间延迟、成本高昂以及偏向有社会安全号码(SSN)个体的链接偏差。
互联网资源已被用于公共卫生监测,包括药物不良事件的研究,但主要集中在群体而非个体水平。公开可用的数据源如讣告和纪念网站提供接近实时的生命状态更新,特别是通过电子方式发布的内容可以轻松使用自然语言处理(NLP)工具进行访问和处理。其他社交媒体信息源如GoFundMe等也可能提供个体死亡信息。
尽管先前有研究使用在线讣告数据提取死亡事实和日期,但这些研究都集中在特定诊断的患者队列中,如癌症或硬皮病患者,且没有探索纪念网站和其他社交媒体等来源。因此,本研究旨在通过先前开发的NLP模型从各种在线来源检索死亡信息,并在医疗系统层面进行验证。
研究人员将来自在线数据源的NLP衍生死亡信息与两个大型三级医疗中心(麻省总医院布莱根健康系统(MGB)和范德堡大学医学中心(VUMC))的EHR进行链接,使用概率链接方法,并以从州和联邦生命统计数据中确定的超过78,000例死亡作为金标准信息进行基准测试。
本研究采用的多机构研究基于两个大型三级医疗中心的患者群体:麻省总医院布莱根健康系统和范德堡大学医学中心。由于操作约束和可用数据资源的不同,两个研究点的研究群体存在差异。MGB使用链接的EHR-医疗保险索赔数据库,并获取三个州生命统计数据库(马萨诸塞州、佛蒙特州、康涅狄格州)作为死亡日期的金标准。VUMC则从其符合条件的人群中采用分层随机抽样提交给NDI,以建立"金标准"参考队列。
研究使用的互联网媒体数据包括2015年至2022年间从Obituary.com、GoFundMe、Everloved/TributeArchives等公开可用互联网媒体帖子中提取的死者姓名、出生日期和死亡日期。数据通过结构化元数据提取或使用基于训练有素的护士注释员对3150份文档进行手动注释训练的XGBoost transformer模型进行提取。大多数800万以上的社交媒体记录来自Obituary.com(91%),部分来自Everloved/TributeArchives(9%),少量来自GoFundMe(<1%)。
数据链接和验证过程中,两个机构都使用SPLINK确定互联网媒体记录与其参考队列之间的概率匹配。使用名字、姓氏、出生日期和居住州在这些来源之间匹配患者记录。初始潜在匹配阈值设置为概率0.80,每个参考患者的最高概率匹配被选为最佳匹配进行进一步分析。
通过手动审查概率匹配算法识别的潜在匹配的有效性,研究人员使用分层随机抽样对每个机构分别按概率得分分组的300个匹配进行审查。概率匹配算法的准确性定义为算法预测为匹配且经手动审查员确认的记录比例。
研究计算了基于互联网媒体来源与参考标准死亡日期对齐的阳性预测值(PPV)。对于这些计算,将互联网媒体来源的死亡日期在参考标准7天之内的情况视为真阳性病例。同时还报告了与参考标准死亡日期完全匹配的结果。
死亡数据的增强 ascertainment 定义为使用社交媒体识别的死亡百分比与仅使用主要参考数据源(EHR或EHR-医疗保险索赔数据库)识别的死亡百分比的增加。在MGB,通过报告互联网媒体记录和EHR捕获死亡的灵敏度作为参考队列中总死亡人数的比例来计算增强。在VUMC,由于NDI参考队列中已知死亡的过采样,需要调整以计算可比指标。
NDI匹配结果显示,在从VUMC研究衍生数据库抽样的患者中,使用概述的匹配标准,在EHR中有记录死亡的患者中96.3%和未知生命状态患者中7.8%识别出NDI匹配。总体而言,13,709名VUMC患者在NDI"金标准"中匹配。
互联网媒体记录与EHR记录链接的验证结果表明,具有高概率(>.99998)且姓名和出生日期匹配的匹配被认为是"真实"匹配,但概率较低的匹配中只有不到50%的审查对符合"真实"匹配标准。即使采用宽松的匹配定义(仅要求名字匹配和出生日期在5天内或不常见的全名匹配),结果仍表明需要社交媒体和EHR之间的全名和出生日期完全匹配才能降低假阳性匹配水平。
基于死亡日期对齐的PPV按概率组报告显示,概率匹配程序中预测的匹配在名字、姓氏和出生日期完全匹配时表现出94-99%的PPV。没有完全匹配这些变量的预测匹配显示PPV低于6%,表明这些匹配可能不准确。这些值在MGB的不同人口亚组中没有显著差异。在VUMC队列中,非白人、女性和年轻患者的在线媒体PPV略低。
对死亡数据增强的分析中,VUMC和MGB都将社交媒体匹配队列限制为名字、姓氏和出生日期完全匹配的个体,因为这些显示出高PPV值,表明不准确匹配率低。
在MGB参考队列的65,139例死亡中,仅使用EHR的捕获灵敏度为33%,而使用完全匹配的互联网媒体记录的捕获灵敏度为37%。总体而言,使用完全匹配的互联网媒体记录比单独使用EHR多识别了15,661例死亡,将灵敏度从33%提高到57%。
在VUMC的13,709名患者参考队列中,11,934名(87%)在EHR记录中有死亡日期记录,1,775名(12.9%)在EHR记录中生命状态未知。在有记录死亡的患者中,47.2%有互联网媒体记录,在1,775名未知生命状态患者中,42.3%在社交媒体中有匹配,将参考队列中的死亡捕获率从87.1%提高到92.5%。
通过推断VUMC 2019-2021患者群体中的增强率,研究发现EHR单独捕获了2019-2021 VUMC死亡人数的57.3%。使用参考队列中社交媒体识别患者的发生率,计算了社交媒体中22,984名潜在VUMC患者。使用这些数字将死亡捕获率从单独EHR的57.3%提高到75.4%,增加了18%,与MGB的24%增加相当。
这项在美国两个大型医疗系统中进行的验证研究表明,EHR中死亡记录存在大量缺失数据。利用NLP模型从公开可用的互联网媒体平台提取死亡信息,可以准确识别EHR中未捕获的额外18-24%的死亡。
死亡率是许多观察性研究的关键结局,因此准确捕获死亡信息至关重要。许多观察性研究依赖于标准临床护理过程中收集的数据和受试者EHR记录中可用的信息,但这些来源通常缺少死亡率信息。缺失的死亡率信息会导致生存率高估,缺失程度增加与生存估计偏差增大相关,即使在评估长期生存和患病率时,少量缺失数据也可能产生显著影响。
EHR之外的标准死亡数据源包括州生命统计部门和NDI。NDI通常被认为是死亡信息的"金标准"来源,但死亡数据可用面临约2年的延迟。对于州生命统计,根据研究问题,研究人员可能需要申请访问多个州登记处,如果患者在州之间移动,仍可能存在覆盖差距。因此,使用NLP从公开可用的互联网来源(如讣告、纪念档案和其他社交媒体共享网站如GoFundMe)提取死亡信息可能是EHR记录死亡信息的有用补充。
先前有研究尝试使用社交媒体数据提取死亡事实,但这些主要集中在小队列的讣告数据上。本研究通过针对来自州生命档案或NDI的金标准信息验证从在线来源(包括讣告、纪念网站和其他社交媒体)提取的死亡信息,提供了迄今为止最大规模的验证。重要的是,我们的发现可能比先前研究更具普遍性,因为我们在美国两个大型医疗系统中进行了基于人群的验证,没有限制任何特定亚人群,且两个研究点的研究人群在选择方法上不同,但获得了相似的结果。
使用互联网媒体来源进行死亡 ascertainment 存在一些注意事项。结果表明,为避免假阳性,需要使用高度严格的标准来确定匹配,这与先前的工作一致。我们承认即使成功从社交媒体提取信息并与EHR链接后,死亡率捕获的灵敏度仍然不理想。我们还注意到MGB和VUMC队列有不同的选择标准和来源人群,因此使直接比较复杂化。
总体而言,互联网媒体来源有可能将死亡率结局数据的覆盖范围比单独EHR记录提高18-24%,并近乎实时地获取这些信息。互联网媒体来源为及时捕获死亡率信息提供了潜在解决方案,无需在机构防火墙外发布任何PHI数据,因为公共社交媒体数据可以被抓取并带入安全环境与EHR匹配。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号