自然语言处理(NLP)较单纯诊断编码显著提升COVID-19识别准确度的差异性研究

【字体: 时间:2025年07月31日 来源:American Journal of Epidemiology 4.8

编辑推荐:

  来自美国家庭队列的研究人员通过对比诊断编码与自然语言处理(NLP)技术的分类效能,揭示了COVID-19识别中存在年龄、种族差异的误分类现象。研究基于21,659例使用抗病毒药物患者和5,000例医生确诊样本,开发三种NLP算法(树模型/循环神经网络/Transformer),证实仅63%实际感染者被ICD-10编码正确识别,其中18岁以下患者敏感度达68.6%显著高于75岁以上群体(60.6%),西班牙裔识别率(68.0%)优于黑人患者(58.5%)。

  

这项概念验证研究揭示了医疗诊断编码在COVID-19识别中的局限性。通过分析美国家庭队列中26,659例患者数据(包含5,000例经医生笔记确诊案例和21,659例接受COVID-19特异性抗病毒治疗者),研究团队构建了三种自然语言处理(NLP)分类器——决策树模型、循环神经网络(RNN)和基于Transformer的算法。

令人惊讶的是,仅63%实际感染者被国际疾病分类第10版(ICD-10)编码准确标识。年龄差异尤为显著:18岁以下青少年检测敏感度达68.6%,而75岁以上老年人骤降至60.6%。种族差异同样存在,西班牙裔患者识别率(68.0%)明显高于黑人群体(58.5%)。

该研究首次系统论证了自然语言处理技术在提升COVID-19识别准确性方面的优势,特别是针对不同人口统计学亚群存在的差异性误分类问题。临床笔记的语义分析相较传统诊断编码展现出更强的病例捕捉能力,为精准流行病学研究提供了新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号