编辑推荐:
当前网络健康误信息泛滥,亟需可靠工具辅助公众评估健康信息质量。研究人员开展 GPT-3.5-Turbo 评估健康新闻质量及解释能力研究,发现其评级准确性因标准而异,解释清晰,对提升公众健康新闻理解具重要意义。
在信息爆炸的时代,健康相关内容在网络上广泛传播,但其中混杂着大量误信息,如传染病防治、慢性病管理、饮食营养等领域的错误观念屡见不鲜。这些健康误信息不仅可能导致公众采取有害健康的行为、拒绝科学医疗手段,还会加剧健康不平等,侵蚀公众对权威信息源的信任。尤其对于健康和数字素养较低、存在语言障碍的弱势群体,更容易受到误导,进一步扩大健康差距。尽管医护人员努力纠正误信息,但面对海量且不断更新的信息,人力难以有效覆盖,因此开发能够大规模评估健康新闻质量的自动化工具成为迫切需求。
人工智能(AI)技术为解决这一问题带来了希望,其中大型语言模型(LLM)如 ChatGPT 因其强大的自然语言处理能力备受关注。然而,现有研究多聚焦于 LLM 对简短健康主张的判断,缺乏基于人类专家常用评估标准的系统性分析,也未充分考察其在复杂健康叙事中的表现及对非专业人群的可解释性。为填补这些研究空白,圣路易斯大学公共卫生与社会正义学院等机构的研究人员开展了相关研究,探究 GPT-3.5-Turbo 在评估健康新闻质量中的表现,该研究成果发表在《BMC Public Health》。
研究人员从
HealthNewsReview.org获取了 3222 篇经过专家标注的健康新闻文章作为数据集,该平台依据包括成本讨论、疗效量化、潜在危害解释等在内的 9 项标准评估健康新闻质量。研究采用提示工程技术,针对每个评估标准设计标准化查询提示,要求模型对每篇新闻是否符合标准进行 “满意” 或 “不满意” 的二分类评级,并提供解释。研究使用精确率、召回率和 F1
1分数等指标评估模型评级的准确性,同时通过定量语言分析(如单词和句子计数、SMOG 可读性评分)和定性评估(一致性和上下文相关性)考察模型解释的质量。
研究结果
健康新闻评级表现
GPT-3.5-Turbo 在不同标准下的评级表现差异显著。其中,成本标准(Cost)的 F11分数最高,为 0.824,显示出对成本相关信息的准确评估能力;而效益(Benefit)、冲突(Conflict)和质量(Quality)标准的 F11分数均低于 0.5,表明模型在这些方面的评估存在较大不足。与传统监督机器学习模型相比,GPT-3.5-Turbo 在多数标准上的表现较差,仅在成本标准上略优于部分模型。
解释能力评估
在解释能力方面,模型生成的解释文本可读性良好,SMOG 评分显示其理解难度相当于高中后期至大学初期水平。定性评估显示,解释的一致性平均得分 2.90/3,上下文相关性平均得分 2.73/3,说明解释内容与评级结果逻辑一致,且能结合原文提供相关依据。例如,在成本标准的评估中,模型能准确引用文章中的具体费用数据作为判断依据。
结论与讨论
研究表明,尽管 GPT-3.5-Turbo 在健康新闻质量评级的准确性上仍有提升空间,但其在提供清晰、上下文相关的解释方面具有显著优势。这一发现为利用 LLM 辅助公众理解健康新闻质量提供了新视角,通过将 LLM 的解释能力与监督机器学习的准确性相结合,有望开发出更有效的健康信息评估工具,助力提升公众健康素养,缓解健康误信息的不良影响。
然而,研究也指出 LLM 存在的局限性,如对上下文理解的不足、标准应用的僵化以及可能出现的 “幻觉” 现象(虚构信息或错误引用)。未来研究可探索混合方法,如结合检索增强生成(RAG)技术提升解释的事实准确性,或采用更先进的提示策略改善模型在复杂任务中的表现。此外,随着 LLM 技术的快速发展,进一步比较不同模型在健康新闻评估中的性能差异,并关注其伦理问题(如偏见和误信息生成),将是后续研究的重要方向。
该研究为人工智能在公共卫生领域的应用提供了实证依据,凸显了 LLM 在健康信息解释方面的独特价值,为构建更具透明度和可及性的健康信息评估体系奠定了基础。