综述:基于文本分析和自然语言处理(NLP)技术的公共卫生紧急事件情报分析系统的开发与测试

《Frontiers in Public Health》:Development and testing of a public health emergency intelligence analysis system based on text analysis and NLP analysis

【字体: 时间:2025年10月17日 来源:Frontiers in Public Health 3.4

编辑推荐:

  多模态数据分析与知识图谱在公共卫生应急中的系统构建与应用

  本研究聚焦于公共健康突发事件中信息支持延迟和决策效率低下的挑战,提出了一种基于图书馆与信息科学的应急信息管理理论构建的智能分析系统。通过整合多种技术手段,包括逻辑回归、C5.0决策树、基于TransH的知识图谱和卡方检验等,系统实现了对疫情传播路径、风险因素和高风险区域的识别。研究使用了石家庄市2021年初新冠疫情的数据,包含1,033例确诊病例的政府报告和流调记录,其中流调文本共1,006份。研究团队采用BIO标注方案,由三位流行病学专家进行标注,达到了0.78的标注者间一致性(Kappa值)。系统开发成果显著,不仅提高了信息提取效率,还实现了对疫情传播机制的深入分析。

在背景部分,研究指出公共健康突发事件因其不可预测性和高危害性,对信息响应的及时性提出了严峻挑战。2021年初石家庄的疫情显示,农村地区的隐性传播是重大公共卫生风险之一,约33.02%的病例在疫情被发现前未就医或仅前往村卫生室,导致病毒在家庭、学校和宗教场所形成集群传播。传统的疫情分析依赖于人工的流行病学调查报告,面对每日数千例的疫情数据时,信息传播存在延迟和碎片化问题。为此,研究提出将图书馆与信息科学的信息组织、知识管理与智能服务理论引入疫情分析领域,为提升我国公共卫生突发事件信息响应能力提供了新思路。例如,美国国家医学图书馆(NLM)通过多源数据整合,构建了主题知识库,使日均服务量提升了300%。本研究的创新点在于将图书馆与信息科学的核心理论与自然语言处理技术相结合,构建了一个智能化的疫情分析系统,具有重要的实践价值。

国内外在该领域的研究进展表明,公共健康突发事件的高效响应依赖于对海量异构信息的快速处理和准确分析。传统公共卫生监测系统在实时性、覆盖范围和信息深度方面存在明显局限,难以满足复杂多变的应急决策需求。近年来,自然语言处理(NLP)和文本分析技术的快速发展为从多源文本数据中自动提取疫情信息提供了新的技术路径。这些技术不仅能够实现疫情预警,还能支持舆论引导、资源调配和风险沟通等关键决策环节。本文系统梳理了国内外相关研究进展,重点分析了智能信息提取、舆论演变分析、药品安全监测和预警决策支持等核心方向的技术突破与应用实践,旨在为未来系统的优化提供理论参考。

国内研究方面,多个团队在疫情信息提取和语义理解领域取得了显著进展。例如,2025年倪鹏飞团队开发的“公共卫生研究文本分析系统”通过三阶段处理流程(风格屏蔽、核心提取、风格重建)实现了高精度的语义保留,解决了传统方法在风格迁移中的语义扭曲问题。在临床文本分析方面,韩国的应急分诊研究中,基于KLUE-RoBERTa的模型在症状识别任务中达到了F1值0.965,通过可解释性人工智能(XAI)技术(如SHAP方法)可视化了决策过程,使模型输出受到临床医生的高度信任,Jaccard相似度达到了0.722。此外,杨国平团队构建的智能药品不良反应监测系统(AIMES)创新性地结合了深度学习和知识图谱技术,能够自动填补电子病历中的缺失信息,并识别潜在的不良反应信号。该系统在中国电子病历中的适应性优于国际通用工具,相关技术已获得国家专利授权(ZL202210102746.8)。

在舆论演变分析和主题挖掘方面,国内研究同样取得突破。2023年兰州财经大学王彤团队提出的SnowNLP-LDA融合模型通过情感分析将舆论周期划分为“形成-爆发-衰退”三个阶段,并结合LDA主题模型识别各阶段的核心议题。通过对87,692条微博评论的分析,研究揭示了政策发布后公众情绪的两极化趋势,为政府精准引导舆论提供了量化依据。此外,武汉大学曾子明团队进一步优化了舆论分析框架,提出了BERT-BiLSTM-Attention复合模型,该模型利用BERT的深度语义表示能力、BiLSTM在时间建模方面的优势以及注意力机制对关键信息的聚焦,实现了舆论主题和情绪的动态追踪。研究表明,线下病毒变异事件与线上情绪波动存在强相关性,为“线上线下联动预警”提供了理论支持。

在药品安全和不良反应监测方面,国际研究也取得了重要进展。例如,哥本哈根大学与中方研究人员合作开发的新方法利用自然语言处理技术自动提取VAERS(疫苗不良事件报告系统)中的症状和描述,并借助GPT-3.5将其映射至MedDRA术语系统,提高了信号处理效率40%,并减少了人工审核的工作量17%。这些技术为大规模疫苗安全监测提供了可行方案。此外,关于早期预警和决策支持系统,研究指出强化学习和复杂系统建模成为新兴研究方向。例如,2024年提出的“AI Q-learning公共卫生早期预警框架”通过状态-动作-奖励映射模拟疫情传播与干预的动态博弈,实现了高风险区域的准确识别。该模型将区域人口流动、医疗资源密度和实时感染数据编码为状态空间,并通过Q值迭代优化隔离强度和资源分配策略,减少了资源错配率28%。

国际研究在多源数据融合和实时分析方面表现出色。例如,加拿大研究团队提出的AI驱动疫情智能框架整合了大语言模型(LLMs)、多语言NLP和优化算法,实现了新闻、学术文献和社交媒体文本的跨源相关性分析。该系统通过实体识别和事件提取技术自动构建疫情传播链的时空图谱,为早期预警提供支持。2025年的验证显示,该系统在埃博拉疫情预警中的时间提前了14天。此外,研究人员还探索了维基百科作为开源情报源的价值,利用命名实体识别(NER)技术自动提取疾病条目中的关键指标(如病例数、死亡数和住院数),并构建与官方数据高度一致的时间序列。2014年西非埃博拉疫情的案例表明,基于维基百科的监测数据与真实数据的相关系数高达0.93(p?
在疫情预测和资源优化方面,国际研究取得了显著成果。例如,泛美卫生组织(PAHO)开发的虚拟校园系统通过分析多国的Twitter数据,实现了疫情爆发点的实时识别。该系统结合主题聚类和情感分析,不仅能够识别病例聚集区域,还能评估公众心理状态,为风险沟通策略提供依据。在新冠疫情期间,该系统已拥有48万用户,预警准确率达到了82%。此外,文本预测模型与运筹学方法的结合在资源优化方面表现出色。例如,FrontiersinAI在2025年提出,通过NLP提取的疫情传播特征可以输入随机优化模型,动态生成医疗资源分配方案。该模型综合考虑了床位需求、医护人员感染风险和供应链稳定性,模拟应用在意大利伦巴第大区时,减少了重症患者入院延迟45%。

在跨语言药物安全监测方面,国际研究取得重要突破。基于Dis2Vec模型的疾病分类方法通过词向量空间映射解决了国际不良反应数据库中的术语差异问题。该模型在欧盟ADR监测网络中的应用显示,其疾病分类准确率比传统ICD编码提高了19%,特别是在罕见和地方性疾病的术语覆盖方面表现突出。在临床文本分析领域,一项发表于《美国急诊医学杂志》的研究验证了Transformer模型在急诊分诊中的价值。通过微调临床BERT模型,系统能够自动识别医生-患者对话中的12种症状和2种病史,AUROC达到了0.893,显著减轻了急诊科文书工作负担。

在社交媒体和多语言舆论管理方面,国际研究关注如何利用计算语言学方法准确识别不同文化背景下的信息传播模式。一项关于新冠疫情期间中英文社交媒体的对比研究显示,英语用户更关注疫苗安全(32.1%),而中文用户则更关注防控政策的效果(41.7%)。这种差异为本地化风险沟通提供了科学依据。此外,大型模型如GPT-3.5被用于自动反驳谣言和生成文本,通过位置检测和科学证据匹配,系统能够实时生成澄清内容,使欧盟事实核查平台上的谣言传播衰减速度提升了50%。

技术挑战方面,尽管文本分析和NLP技术在公共卫生信息分析中取得了显著进展,但仍面临多个技术瓶颈。数据异构性和质量缺陷是主要问题之一,社交媒体文本的非结构化、电子病历的隐私限制以及多源数据的格式差异,使得信息整合变得困难。中国电子病历的分析显示,方言表达和缩略语使实体识别的错误率增加了15-20%。此外,现有模型在特定事件(如新冠)中表现良好,但在新兴传染病(如猴痘病毒)的识别上敏感性较低,跨疾病迁移时平均F1值下降了28%。实时性和准确性的平衡也是一个关键问题,SnowNLP-LDA模型在实时监控模式下主题识别延迟仅为10分钟,但代价是主题一致性评分降低了0.12。同时,现有系统主要关注文本分析,而未有效整合图像报告(如CT影像)、音频数据(如紧急呼叫)和时空轨迹等多模态信息。

未来研究方向方面,学者们正在从多个维度探索突破路径。首先,多模态融合分析成为新兴研究方向,如将胸部X光报告文本与图像特征结合,构建新的冠状病毒预测模型,使预测窗口提前至症状出现前48小时。其次,小样本学习和迁移学习被用于提升模型的泛化能力,如杨国平团队在AIMES系统中采用知识图谱引导的微调策略,使小样本场景下的不良反应识别F1值提升至0.79。此外,因果推理和可解释性增强成为研究重点,如哥本哈根大学研究通过因果图模型和反事实分析揭示风险因素与健康结果之间的因果链,提升治疗效果估计的准确性。最后,边缘计算部署成为推动基层机构本地化分析的重要方向,如非洲试点项目使用优化的移动NLP模型,在低带宽环境下实现离线症状报告分析。

在技术融合与创新方面,未来研究将推动多模态大模型在公共卫生领域的垂直应用,整合医学影像、基因组数据和社会媒体文本,构建全景疫情智能图谱。同时,加强边缘智能的部署,提升资源匮乏地区的本地化分析能力。在跨学科合作机制方面,研究建议建立“公共卫生-计算机科学-语言学”三位一体的合作平台,弥合技术研究与防控实践之间的鸿沟。中国第三湘雅医院的“人工智能药学跨学科研究中心”成功经验表明,此类合作可以显著加速技术转化。在伦理与隐私保护方面,研究建议设计符合GDPR、HIPAA和中国个人信息保护法的去标识化文本处理方案,并开发联邦学习架构,支持跨机构数据协作,而无需共享原始数据。

当前,基于文本分析和NLP的公共卫生智能系统正处于从“技术验证”向“大规模应用”的关键转型阶段。随着各国政府将AI纳入国家公共卫生战略(如中国《高水平公共卫生学院建设指南》),该领域预计将在下一轮全球公共卫生危机中发挥更加核心的防御作用。本研究的核心目标是构建一个公共卫生突发事件智能分析系统,实现多源信息融合、风险信息识别和决策支持可视化,并创新性地应用图书馆与信息科学的信息生命周期理论,设计“采集→分析→服务”的闭环框架。

在研究方法上,本研究采用了混合研究设计,包括定量分析、文本挖掘、知识图谱构建和系统开发。定量分析部分使用卡方检验筛选关键传播场所,并通过逻辑回归识别高风险人群。文本挖掘部分采用LDA主题模型提取流动调查报告中的潜在主题,如“聚集活动类型”和“就医路径”。知识图谱部分使用TransH算法构建“病例-场所-时间”图谱,解决传统TransE算法在“1-N”关系建模上的不足。系统开发部分基于Python Flask框架构建B/S架构分析平台,实现高效的数据处理和可视化。

在系统测试与评估方面,研究显示该系统在数据处理、模型精度和资源消耗方面表现良好。例如,智能信息提取速度达到2.3秒(处理千级数据),知识图谱的链接预测准确率为89.3%,决策树分类准确率为85.7%。资源消耗方面,系统运行时峰值内存使用为1.2GB,CPU占用率为68%。在用户评估中,CDC专家从三个维度(信息相关性、界面易用性、决策支持)进行评分,分别为4.32±0.45、3.87±0.62和4.56±0.38。反馈表明,传播链的可视化显著提升了流动控制效率。

在讨论部分,研究强调了图书馆与信息科学理论在公共卫生事件中的应用价值。信息生命周期理论在应急信息管理中的适用性得到验证,系统在数据采集阶段使用BiLSTM实体提取解决非结构化文本问题;在分析阶段融合卡方检验和逻辑回归,实现“描述→预测”的过渡;在服务阶段通过知识图谱可视化满足决策者的空间认知需求。系统设计呼应了傅平提出的“四维模型”,一方面通过API连接河北疫情报告系统自动提取结构化病例数据,另一方面采用预设BiLSTM模型处理非结构化的手工流行病学调查报告,完成实体识别和关联分类。

此外,本系统相比ProMED等代表性系统具有明显优势。首先,其信息粒度达到个体层面,而ProMED主要提供区域或机构级别的早期疫情警报;其次,系统将流行病学调查报告的分析时间从传统人工流程的24小时缩短至2.5小时,显著提升了响应速度;第三,系统引入了高风险区域预警模块(C5.0决策树),实现了前瞻性干预。在与工业级知识图谱系统如OpenSPG的对比中,本系统在疫情场景中的适用性更强。虽然OpenSPG在大规模通用知识推理和高效子图查询(QPS>10,000)方面具有优势,但在建模“1-N”关系(如一个传播场所与多个病例的关联)方面存在局限。相比之下,本研究采用的TransH算法通过引入超平面实现关系特定投影,解决了多个关联带来的表示冲突问题,使链接预测准确率达到89.3%(F1=0.89),优于基于图卷积网络(GCN)的模型(F1=0.85)。

基于研究结果,提出了分层级的公共卫生响应策略。红色高风险区域(如增村和镇)应立即封锁教堂和婚宴场所,并将村卫生室转变为发热哨点。黄色中等风险区域应限制聚集活动规模(<50人),并对基层医疗机构所有工作人员进行核酸检测。绿色和低风险区域则应加强症状监测系统,推广线上健康咨询。该策略优化了资源配置,避免了“一刀切”式封锁带来的经济损失。

尽管系统取得了显著成果,但仍存在一些局限性。首先,未整合社交媒体数据(如微博求助信息),而当前系统依赖的官方数据存在覆盖不足的问题。社交媒体数据能够补充官方数据的“诊断导向”局限,包括未被记录的关键群体和缺失的“诊断前信号”,从而纠正风险评估偏差,使样本集更全面地反映疫情相关人群的真实情况。其次,农村方言影响文本解析的准确性。本研究采用的标准中文语料库缺乏方言标注数据,可能导致实体误分类和关系误判,影响个体风险评分的准确性,并模糊农村地区的实际传播路径,削弱系统对基层防控的指导价值。最后,实时预测的硬件需求较高,核心分析模型的复杂性要求强大的计算能力,而基层设备配置与系统需求之间存在显著差距。

未来研究方向包括拓展多模态信息源,接入120条紧急记录和药品购买数据;开发轻量化版本,如基于移动端的流动控制助手APP;以及引入方言NLP模型,提升河北方言区域的实体识别效果。图书馆与信息科学的“信息生命周期理论”指导了从数据采集到知识服务的整个流程设计,而NLP技术作为信息提取和语义理解的关键工具,共同支持了信息在认知层面的结构化与可视化。该系统为图书馆与信息科学赋能公共卫生应急管理提供了理论范式和技术路径,对提升我国公共卫生应急体系具有积极意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号