今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

通过弱监督自然语言处理技术,自动从医院出院证明中识别诊断信息

《Scientific Reports》:Automatic identification of diagnosis from hospital discharge letters via weakly supervised Natural Language Processing

【字体: 大 中 小 】 时间:2026年06月12日 来源:Scientific Reports 3.9

编辑推荐:

  摘要从医院出院通知中识别患者诊断对于大规模队列选择和流行病学研究至关重要,但传统的监督学习方法需要大量的手动注释工作,这对于大型文本数据集来说往往不切实际。我们提出了一种弱监督的自然语言处理(NLP)流程,无需文档级别的手动注释即可对意大利语出院通知进行分类。该方法提取与诊断相关

  

摘要

从医院出院通知中识别患者诊断对于大规模队列选择和流行病学研究至关重要,但传统的监督学习方法需要大量的手动注释工作,这对于大型文本数据集来说往往不切实际。我们提出了一种弱监督的自然语言处理(NLP)流程,无需文档级别的手动注释即可对意大利语出院通知进行分类。该方法提取与诊断相关的句子,使用在意大利医学文档上预训练的Transformer模型生成语义嵌入,并应用两级聚类程序来生成弱标签,这些标签随后用于训练文档级别的分类器。该方法在意大利威尼托地区2017年至2020年间收治于44家急诊室或医院的33,176份儿童出院通知的支气管炎案例研究中进行了评估。最佳弱监督模型的AUROC值为77.68%(±4.30%),AUPRC值为73.13%(±4.93%),F1分数为78.14%(±4.89%),与手动注释的数据相比表现优异。其性能超过了无监督基线模型,并接近完全监督模型,同时将此类数据集的手动注释需求减少了1,500多个小时。在另一个较小的支气管炎数据集(3,188份出院通知,2020-2025年)的二次验证中,也观察到了类似的模型排名情况,其中最佳弱监督模型的AUPRC值为76.72%(±5.02%)。这些结果表明,弱监督NLP方法在从临床出院通知中可扩展地识别疾病方面具有潜力。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:弱监督 NLP|意大利疾病分类|深度学习|无标签学习|临床文本分类|卫生服务研究

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号