基于大语言模型的自由文本分析揭示COVID-19传播环境:一项全国性病例对照研究

【字体: 时间:2025年07月02日 来源:Nature Communications 14.7

编辑推荐:

  本研究通过结合封闭式问卷与自由文本分析,创新性地利用CamemBERT模型从54万份法国COVID-19感染者调查数据中提取传播环境特征。研究团队开发了监督分类模型(准确率75%)和无监督主题建模方法,成功识别出23个传播场景集群,不仅验证了预设的7类传播环境(如工作、家庭),还发现了医院、养老院等未预设的高风险场景。该成果发表于《Nature Communications》,为未来疫情中快速识别未知传播途径提供了AI驱动的解决方案。

  

在COVID-19大流行中,快速识别病原体传播环境对公共卫生干预至关重要。传统流行病学调查依赖封闭式问卷,存在预设选项局限性和应答率低等问题。法国Institut Pasteur等机构的研究团队创新性地将自然语言处理(NLP)技术应用于54万份感染者自由文本分析,通过大语言模型(LLM)挖掘文本中隐含的传播特征。

研究采用CamemBERT模型(专为法语优化的RoBERTa变体)构建监督分类系统,从自由文本预测7类预设传播环境(工作、家庭、朋友、体育、文化、宗教、其他),准确率达75%。通过局部可解释模型(LIME)分析发现,"葬礼"等词汇在宗教与家庭类别中存在交叉,揭示了问卷设计的潜在缺陷。更引人注目的是无监督的BERTopic聚类方法,该技术通过UMAP降维和HDBSCAN聚类,从31,036份文本中识别出23个传播场景,包括"医院/急诊"(占比9.9%)和"养老院"(8.4%)等未预设的高风险场所,以及"酒吧/夜晚"、"餐厅/用餐"等具体活动场景。

关键技术包括:1) 基于CamemBERT的文本嵌入转换;2) 使用54万份配对数据(自由文本+封闭答案)进行监督训练;3) 结合TF-IDF和HDBSCAN的无监督主题建模;4) 通过熵值过滤提升分类准确性(过滤43%高熵数据后准确率达91%)。

主要研究发现:

  1. 监督分类验证自由文本的流行病学价值
    模型对工作场景识别最佳(精确度83%),宗教场景表现最差(召回率0%),反映出文化语境对分类的影响。通过合并高熵类别(文化/宗教并入其他),平衡准确率提升至76%。

  2. 无监督聚类揭示隐藏传播模式
    23个自动生成的集群中,9个集群75%以上响应集中于单一预设类别。工作场景被细分为"同事"(传统工作)、"养老院"(医护人员)、"地铁"(通勤)等子类,显示职业暴露的多样性。

  3. 方法学创新助力疫情应对
    研究证明自由文本可替代部分封闭问题(如工作场景预测准确率98%),且能发现问卷未覆盖的风险场景(如学校、游泳池)。通过实时熵值分析,可动态优化问卷设计。

这项研究开创性地将LLM应用于大规模流行病学调查,其价值体现在三方面:首先,在方法学层面证明AI模型能从非结构化文本提取定量流行病学特征;其次,为未来新发传染病疫情提供快速识别未知传播途径的技术路线;最后,提出"自由文本优先"的调查范式,通过减少封闭问题提高应答率。正如作者指出,该方法可扩展至社交媒体等非结构化数据源,为全球公共卫生监测提供新视角。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号