
-
生物通官微
陪你抓住生命科技
跳动的脉搏
疫情信息中的语言模式:COVID-19与猴痘数据集的比较语言分析及其对健康信息传播与误信息识别的启示
【字体: 大 中 小 】 时间:2025年09月16日 来源:Frontiers in Artificial Intelligence 4.7
编辑推荐:
本综述通过计算语言学方法,比较分析了COVID-19误信息、一般内容及猴pox疫情相关文本的语言特征。研究发现误信息文本可读性显著更低(Flesch Reading Ease, FRE),恐惧与说服性词汇使用频率更高,且较少使用感叹号等修辞标记。这些语言特征不仅有助于误信息自动检测(如SVM、CNN-LSTM等模型),也为危机沟通与公共卫生讯息策略(如Elaboration Likelihood Model, ELM)提供了理论依据与实践方向。
疫情信息中的语言模式:一项基于COVID-19与猴痘数据的比较分析
引言
全球健康系统在COVID-19大流行期间面临巨大挑战。数字平台上健康相关信息的激增既加速了知识传播,也带来了误信息泛滥的难题,世界卫生组织(WHO)将其称为“信息疫情”(infodemic)。研究表明,接触COVID-19误信息会直接影响健康行为,例如降低疫苗接种意愿,甚至导致区域间病例和死亡率的显著差异。因此,识别疫情相关沟通中的语言特征,对于公共卫生讯息传递、内容审核与危机沟通策略具有关键意义。尽管已有大量研究关注健康误信息的内容与传播机制,但较少有系统工作从跨疫情语境的角度,比较误导性内容与事实信息在语言模式上的差异。
本研究通过计算语言学方法,对三个疫情相关数据集——包括经核实的COVID-19虚假叙述(COVID-19_FNR)、一般COVID-19内容(Constraint数据集)以及猴痘(Monkeypox)相关社交媒体帖子——进行了比较分析。研究旨在回答以下问题:误信息内容与一般疫情沟通在可读性指标上有何差异?不同疫情信息语境中修辞策略(如标点使用)如何变化?虚假叙述与可靠健康信息在说服性或情感语言的使用上有何不同?
研究方法
数据集来源于三个不同语料库,共计24,075条文本数据。COVID-19_FNR包含7,588条被事实核查机构标记为虚假叙述的帖子;Constraint数据集包含10,700条来自社交平台的COVID-19相关一般内容;Monkeypox数据集则包括5,787条2022年猴痘疫情相关帖子。所有文本均经过统一的预处理流程,包括去除URL、HTML标签、标准化空白字符以及编码处理。
分析采用多项计算语言学指标,包括可读性指标(Flesch Reading Ease, FRE 与 Flesch–Kincaid Grade Level, FKGL)、修辞标记(如感叹号与问号的使用频率)以及说服性语言分析(基于八类恐惧相关术语,如“恐慌”、“危机”等)。统计方法依据数据分布特性选取ANOVA或Kruskal–Wallis检验,并辅以事后比较与定性内容分析,以增强结果的可解释性与稳健性。
研究结果
可读性差异方面,COVID-19误信息内容表现出显著更低的可读性,平均FRE为11.05(属“非常难”级别),FKGL为15.5,相当于需要大学以上教育水平才能理解。相比之下,Constraint数据集和Monkeypox内容的平均FRE分别为43.88与55.73,FKGL为11.1和8.9,分别处于高中和初中水平。统计检验显示组间差异极其显著(p < 0.001),表明COVID-19误信息在语言复杂度上与其他两类内容有本质区别。
修辞策略上,Monkeypox内容使用感叹号的频率最高(平均每帖0.120次),体现出更强烈的情感表达与紧迫感;Constraint数据集中问号使用最多(0.225次),反映早期COVID-19讨论中的不确定性与对话性;而COVID-19误信息则极少使用这类标点,倾向于采用一种克制而模仿权威的文体风格。
说服性语言分析显示,COVID-19误信息中使用恐惧与说服性术语的频率是其他两类内容的两倍以上(平均0.078次/词 vs. 0.031)。这类词汇包括“紧急”、“灾难”、“警告”等,常用于触发情绪反应。Constraint与Monkeypox内容在这一指标上无显著差异,说明主流健康沟通在情感语言的使用上较为一致和保守。
对高参与度内容的定性分析进一步揭示,COVID-19误信息常涉及阴谋论(如“真实死亡人数被隐瞒”)、非传统疗法推广(如“二氧化氯可抗病毒”)等主题;Constraint内容则侧重数据报告与政策讨论;Monkeypox帖子则强调紧迫性与官方预警。这些主题差异与量化指标相互印证,说明不同信息类型在语言风格和传播策略上各具特征。
讨论
本研究发现,语言复杂性可能是健康误信息的一项策略性特征。COVID-19误信息通过高复杂度语言模仿科学权威文体,可能借此提升其可信度,同时增加读者认知负荷,阻碍批判性思考。这一发现与双过程理论(如Elaboration Likelihood Model, ELM)相符,说明受众在信息超载环境下更依赖外围线索(如语言复杂性)而非深入分析。
修辞策略的差异则反映出不同疫情语境下的沟通适应。Monkeypox内容通过强调紧迫性吸引公众注意;COVID-19一般内容则通过提问促进对话、化解不确定性;而误信息则避免情感标点,以维持表面上的客观性与权威感。
情感分析结果表明,COVID-19误信息广泛采用“隐性情感”策略——即大量使用情感词汇却避免外显的修辞标记——这可能使读者在不知不觉中受到情绪影响,提升其接受度和分享意愿。这一机制与情感启发式(affect heuristic)理论一致,说明情绪在健康信息评判中扮演核心角色。
本研究亦存在多项局限,包括依赖传统可读性指标、说服性词汇表范围较窄、数据集来源与时间范围不一致等。未来研究可采用更丰富的语言资源(如LIWC、NRC Emotion Lexicon)、纵向设计以及平台敏感的分析方法,进一步探索语言特征与信息传播间的因果关系。
结论
通过比较COVID-19误信息、一般内容与猴pox相关沟通的语言特征,本研究表明误信息在语言复杂度、情感语言使用和修辞策略上具有显著区别。这些特征不仅有助于开发更精准的误信息自动检测系统(如结合CNN–LSTM等深度学习架构),也为公共卫生沟通提供了重要启示:在危机响应中,使用清晰、易读的语言并审慎设计情感表达,有助于提升讯息效果、对抗误导性内容。
未来的健康传播研究应继续关注语言特征的跨语境一致性、演变规律以及其与受众行为的互动机制,从而为构建更具韧性的公共健康信息生态系统提供理论与实践基础。
生物通微信公众号
知名企业招聘