
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在公共卫生话语中识别风险促进与健康支持情感的准确性差异:以HPV疫苗接种和加热烟草产品为例
【字体: 大 中 小 】 时间:2025年06月30日 来源:Social Science & Medicine 4.9
编辑推荐:
本研究针对机器学习在公共卫生情感分析中的准确性瓶颈,创新性评估了GPT、Gemini和LLAMA三种主流大型语言模型(LLMs)在HPV疫苗接种和加热烟草产品(HTPs)议题上的情感识别效能。通过Facebook/Twitter数据与人工标注对比,发现LLMs总体准确率较高但存在平台差异:Facebook风险信息识别更准,Twitter健康支持信息检测更优,中性信息识别仍是挑战。该研究为公共卫生舆情监测提供了关键模型选择依据。
在数字健康时代,社交媒体已成为公众表达健康观点的重要阵地。然而,面对海量的公共卫生讨论数据,传统分析方法已难以满足实时监测需求。尽管大型语言模型(LLMs)展现出强大的文本处理能力,但其在识别健康相关情感——尤其是对立性观点如"风险促进"与"健康支持"方面的准确性仍属未知。这种能力缺口可能导致公共卫生决策者错误评估舆情态势,进而影响疫苗接种推广、烟草控制等关键政策的制定。
针对这一科学问题,来自[某大学]的研究团队在《Social Science》发表创新研究,系统评估了GPT、Gemini和LLAMA三种LLMs在人类乳头瘤病毒(HPV)疫苗接种和加热烟草产品(HTPs)两大公共卫生议题上的情感识别效能。研究团队通过CrowdTangle和Twitter API获取跨平台社交媒体数据,构建包含人工标注的金标准数据集,采用交叉验证方法对比模型性能。
Examining Public Perceptions of Health Issues Using Computational Methods
研究指出公共卫生情感分析对制定精准干预策略具有核心价值。通过计算语言学方法监测健康行为认知趋势,可为健康传播活动提供数据支撑。
Research Aim and Research Questions
研究设定四大核心问题:LLMs与人工标注的一致性程度、跨健康议题的稳定性、平台间性能差异,以及模型间的比较优势。
Data Collection
数据采集涵盖Facebook长文本和Twitter短文本,通过既往研究验证的数据集确保代表性。Facebook数据来自CrowdTangle,Twitter数据通过API获取,均聚焦HPV疫苗和HTPs讨论。
Overall Accuracy of LLMs
结果显示:1)所有LLMs对两类情感的识别准确率均超过基准值;2)Facebook风险信息识别准确率平均高12%;3)Twitter健康支持信息检测F1值达0.82;4)Gemini在跨平台表现中最稳定。
Discussion
研究发现LLMs存在显著"平台偏见":模型训练数据中Twitter语料占比较高可能导致其短文本处理优势。值得注意的是,中性信息识别准确率不足60%,反映出现有模型对模糊表达的解析局限。
该研究的创新价值体现在三个方面:首次系统验证LLMs在公共卫生情感分析中的跨平台适用性;揭示模型性能与训练数据结构的潜在关联;为世界卫生组织(WHO)数字健康监测指南提供了技术选择框架。作者建议后续研究应关注多模态数据整合,并开发针对中性表达的专用分类算法。研究团队特别强调,在使用LLMs进行公共卫生决策支持时,必须进行严格的平台特异性验证,避免因模型偏差导致政策误判。
生物通微信公众号
知名企业招聘