阿拉伯语推文中的COVID-19主题与情感分析:基于LDA模型与RoBERTa的公共卫生洞察

【字体: 时间:2025年06月06日 来源:JMIR Infodemiology 3.5

编辑推荐:

  本研究针对COVID-19疫情期间阿拉伯语社交媒体舆情,通过采集2020年3月百万条推文,结合潜在狄利克雷分配(LDA)主题建模与Twitter-RoBERTa-Base-Emotion情感分析技术,系统解析了8大主题(如预防措施、医疗健康、宗教实践等)及以愤怒为主导的情绪分布。研究首次揭示阿拉伯地区公众对疫情的多维度反应,为公共卫生决策提供了实时舆情监测新范式,发表于《JMIR Infodemiology》。

  

随着COVID-19疫情席卷全球,社交媒体成为公众表达观点和信息传播的重要渠道。阿拉伯地区作为全球公共卫生体系的重要组成部分,其民众在Twitter平台上的讨论尚未被系统研究。既往研究表明,英语社交媒体分析已广泛应用于疫情监测,但阿拉伯语因其复杂的方言体系和独特的文化语境,使得传统自然语言处理(NLP)技术面临挑战。更关键的是,疫情初期阿拉伯民众对防控措施的情绪反应、对疫苗研发的态度,以及宗教活动与防疫政策的冲突,都亟待科学评估以指导精准干预。

为此,一项发表于《JMIR Infodemiology》的研究创新性地采用机器学习方法,对2020年3月(疫情关键爆发期)的百万条阿拉伯语推文展开多维度分析。研究团队首先通过GeoCoV19数据集获取原始推文,利用Twarc API完成数据清洗,并采用Farasa工具进行阿拉伯语文本预处理(包括去除变音符号、分词等)。核心分析方法包含两大技术支柱:一是潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)主题建模,通过CaoJuan2009和Deveaud2014指标确定最优主题数为16,最终聚类为8大主题;二是基于Twitter-RoBERTa-Base-Emotion模型的情感分析,该模型经5800万条推文预训练,可识别愤怒、期待等8类情绪。值得注意的是,因缺乏阿拉伯语情感分析工具,研究通过Google Translation API将文本译为英语后分析,并抽样验证了翻译准确性。

研究结果呈现三大核心发现:

  1. 主题分布特征
    通过LDA建模识别出16个子主题,归纳为预防措施(如"口罩使用"、"洗手"关键词频率达4.69%)、医疗健康(涉及医院、氯喹治疗等)、宗教实践(首次发现"清真寺"、"斋月"等关联话题)等8类。其中"新增病例与死亡"主题占比最高(9.98%),反映公众对疫情发展的高度关注。

  2. 情绪图谱
    情感分析显示愤怒情绪占主导(182,105条),尤其在讨论政府措施和病例增长时;而疫苗研发话题伴随喜悦情绪(141,446条)。值得注意的是,宗教相关推文呈现独特的情绪混合模式,既包含对聚集禁令的愤怒,又流露对神圣场所保护的感激。

  3. 时空关联性
    3月中旬推文量激增与世界卫生组织宣布"全球大流行"及多国旅行禁令实施高度同步,证实社交媒体数据可作为公共卫生事件的实时预警指标。

讨论部分指出,该研究首次系统绘制了阿拉伯语人群的疫情认知地图,其方法论创新体现在三方面:一是验证了机器翻译结合RoBERTa模型在非英语情感分析的可行性;二是揭示宗教文化因素在公共卫生事件中的调节作用(如斋月期间防疫信息传播策略需调整);三是为"信息流行病学"(Infodemiology)提供了阿拉伯语研究范式。局限性包括方言差异可能影响情感分析精度,以及样本局限于Twitter活跃用户。

这项研究的现实意义在于,其结论可直接指导公共卫生实践:例如愤怒情绪高发领域需优先开展风险沟通,而宗教领袖参与防疫宣传可能提升干预效果。未来研究可扩展至多语言对比分析,并开发原生阿拉伯语NLP工具以提升分析效能。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号