
-
生物通官微
陪你抓住生命科技
跳动的脉搏
自然语言处理(NLP)较单纯诊断编码显著提升COVID-19识别准确度的差异性研究
【字体: 大 中 小 】 时间:2025年07月31日 来源:American Journal of Epidemiology 4.8
编辑推荐:
来自美国家庭队列的研究人员通过对比诊断编码与自然语言处理(NLP)技术的分类效能,揭示了COVID-19识别中存在年龄、种族差异的误分类现象。研究基于21,659例使用抗病毒药物患者和5,000例医生确诊样本,开发三种NLP算法(树模型/循环神经网络/Transformer),证实仅63%实际感染者被ICD-10编码正确识别,其中18岁以下患者敏感度达68.6%显著高于75岁以上群体(60.6%),西班牙裔识别率(68.0%)优于黑人患者(58.5%)。
这项概念验证研究揭示了医疗诊断编码在COVID-19识别中的局限性。通过分析美国家庭队列中26,659例患者数据(包含5,000例经医生笔记确诊案例和21,659例接受COVID-19特异性抗病毒治疗者),研究团队构建了三种自然语言处理(NLP)分类器——决策树模型、循环神经网络(RNN)和基于Transformer的算法。
令人惊讶的是,仅63%实际感染者被国际疾病分类第10版(ICD-10)编码准确标识。年龄差异尤为显著:18岁以下青少年检测敏感度达68.6%,而75岁以上老年人骤降至60.6%。种族差异同样存在,西班牙裔患者识别率(68.0%)明显高于黑人群体(58.5%)。
该研究首次系统论证了自然语言处理技术在提升COVID-19识别准确性方面的优势,特别是针对不同人口统计学亚群存在的差异性误分类问题。临床笔记的语义分析相较传统诊断编码展现出更强的病例捕捉能力,为精准流行病学研究提供了新范式。
生物通微信公众号
知名企业招聘