
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自然语言处理算法的跌倒事件识别研究:揭示传统ICD编码遗漏的高危老年患者群体
【字体: 大 中 小 】 时间:2025年06月23日 来源:JAMIA Open 2.5
编辑推荐:
本研究针对传统ICD编码低估老年患者跌倒事件的问题,威斯康星大学麦迪逊分校团队开发了NLP算法分析急诊科病历文本,发现49%的跌倒事件未被ECM编码识别。这些NLP独检患者具有更高Elixhauser共病指数和30天死亡率,且多伴随脓毒症等急性病症。研究为完善跌倒监测体系提供了新方法学范式,对公共卫生决策具有重要启示。
老年跌倒已成为全球公共卫生的重要挑战。美国疾控中心数据显示,跌倒每年造成约50亿美元医疗支出,占老年急诊就诊量的10%-20%。然而传统监测主要依赖国际疾病分类(ICD)中的外部病因编码(ECM),这种方法的敏感性受到学界质疑。威斯康星大学麦迪逊分校急诊医学团队发现,当患者因跌倒导致颅内出血等严重创伤时,临床医师往往优先编码损伤诊断而忽略病因编码,造成"严重病例漏检"的系统性偏倚。
为破解这一难题,BerbeeWalsh急诊医学系的Daniel J. Hekman领衔的研究团队开展了一项横断面研究,创新性地将自然语言处理(NLP)技术应用于50,153份急诊病历文本分析。该研究通过对比NLP算法与传统ICD编码的识别差异,首次系统揭示了被传统监测体系忽视的高危患者群体特征。相关成果发表在《JAMIA Open》期刊,为完善跌倒监测提供了重要循证依据。
研究采用三项关键技术方法:1)基于Python 3.11开发的正则表达式NLP算法,通过"fall"词根识别及否定排除机制处理急诊病历文本;2)电子健康记录(EHR)系统提取的ICD-9/10诊断代码作为对照标准;3)50,153例65岁以上急诊患者队列(2016-2020年)的多维度临床数据分析,包括Elixhauser共病指数、30天死亡率等预后指标。
研究结果部分呈现了丰富发现:
Overlap between Falls Identification Methodologies
NLP算法识别出14,604例跌倒事件,其中7,086例(49%)未被ECM编码捕获。与传统编码相比,NLP独检患者表现出显著差异:平均Elixhauser共病评分更高(3 vs 2分),30天死亡率更高(7.6% vs 5.8%),且更多表现为脓毒症等急性病症而非创伤性损伤。
Demographics of patients who fell
NLP独检群体中55%为女性,平均年龄75岁,91%为白人。值得注意的是,这些患者通过急救车转运的比例较低(40% vs 57%),但急诊死亡风险更高(0.3% vs <0.1%)。诊断分析显示,仅21%符合典型跌倒创伤模式,79%存在急性疾病诱因。
Causal etiologies between fall and arrival to emergency department
研究创新性地构建了四类跌倒-就诊因果关系模型:1)单纯跌倒致伤;2)轻度疾病诱发跌倒;3)严重疾病直接导致跌倒;4)疾病通过虚弱间接引发跌倒。该模型解释了NLP算法为何能捕获更多复杂病例。
讨论部分指出,传统Kellogg定义将跌倒限定为"非意识障碍导致的意外倒地",而NLP方法可识别更广泛的跌倒相关事件。但研究也警示,直接比较不同识别方法得出的流行病学数据需谨慎——NLP捕获的许多病例实际是疾病终末事件而非跌倒原发后果。在大型语言模型(LLM)时代,该研究强调算法开发需明确目标表型:若关注跌倒预防,ECM编码足够;若研究全谱系跌倒相关疾病负担,则需结合NLP技术。
这项研究具有三重重要意义:方法学上验证了NLP在临床表型识别中的优势;临床上揭示了被忽视的高危患者特征;公共卫生层面为精准监测提供了新思路。未来研究可探索LLM在区分跌倒因果链方面的潜力,并开发能自动识别Kellogg标准跌倒的智能算法。该成果提醒学界:在利用丰富文本数据的同时,必须审慎考虑目标表型的因果内涵。
生物通微信公众号
知名企业招聘