大型语言模型在自杀预防中的应用：基于WHO指南的新闻媒体报道评估与AI解决方案

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月22日 来源：npj Mental Health Research

编辑推荐：

　　本研究针对媒体自杀报道可能引发"模仿效应"(copycat effect)的公共卫生难题，创新性地评估了ChatGPT-4和Claude Opus两款大型语言模型(LLMs)对40篇自杀相关新闻的WHO指南符合度判断能力。结果显示ChatGPT-4与人类评审员具有高度一致性(ICC=0.81-0.87)，证实AI可成为监测媒体报道质量、促进"帕帕基诺效应"(Papageno effect)的规模化工具，为自杀预防提供创新技术路径。

在数字媒体时代，每篇关于自杀的新闻报道都可能成为影响公共健康的"双刃剑"。世界卫生组织(WHO)数据显示，全球每年约有81.7万人死于自杀，而媒体不当报道引发的"模仿效应"(copycat effect)已被证实会显著增加自杀风险。尤其当报道详细描述自杀方法或美化自杀行为时，脆弱个体更易受到负面影响。与之相对，遵循WHO指南的"帕帕基诺效应"(Papageno effect)报道则能促进预防意识。然而现实情况令人担忧：以色列研究发现仅49.35%的报道符合指南要求，且记者培训效果有限。这种困境催生了一个关键问题：能否利用人工智能技术实现大规模、高效率的媒体报道质量监控？

来自以色列的研究团队在《npj Mental Health Research》发表的研究给出了肯定答案。该研究创新性地评估了ChatGPT-4和Claude Opus两款大型语言模型(LLMs)对自杀相关新闻的评审能力。研究人员从以色列两大主流报纸2012-2023年间筛选出40篇符合标准的自杀报道，采用双盲设计让两名心理学学生和两个AI系统独立评估每篇文章对15项WHO指南的符合程度。评估维度包括显著性(Prominence)、复杂性(Complexity)、煽情性(Sensationalism)和预防性(Prevention)四大类。通过类内相关系数(ICC)和方差分析等统计方法，系统比较了人类与AI评审结果的一致性。

关键技术方法包括：1)基于WHO指南开发13项评估指标(排除2项图像相关指标)；2)使用定制化GPT模型"Responsible Coverage.AI"实现自动化评估；3)采用ICC评估人类与AI评分一致性；4)通过重复测量ANOVA比较不同评审者的评分差异。所有文章均来自以色列Hayom和Yedioth Ahronoth的希伯来语数字档案，经关键词检索和人工筛选确保研究样本的代表性。

研究结果呈现多个重要发现。在评分一致性方面，ChatGPT-4表现出色：与人类评审员1的ICC达0.81(95%CI 0.64-0.90)，与评审员2达0.87(0.75-0.93)，接近人类评审员间0.92(0.85-0.96)的优异一致性。而Claude.AI与人类的ICC稍低(0.73-0.78)，且倾向于给出更严格的评分。整体评分比较显示，Claude.AI均值(6.43±1.89)显著低于人类评审(7.15±1.58;7.25±1.69)和ChatGPT-4(7.54±1.83)。

分维度分析揭示更多细节。在显著性维度，Claude.AI评分显著低于其他评审者；复杂性维度中ChatGPT-4评分最高，Claude.AI最低；煽情性维度仅Claude.AI与人类评审员1存在差异。值得注意的是，预防性维度四组评审无显著差异，表明AI与人类对"是否提供预防信息"的判断高度一致。这些结果通过热图可视化呈现，直观展示了不同评审者间的评分模式差异。

该研究的讨论部分强调了多重理论价值与实践意义。在理论层面，证实了LLMs处理复杂心理健康文本的能力，特别是ChatGPT-4展现出与专业人员相当的判断力，这与先前研究发现其自杀风险评估能力媲美精神科医生的结论相呼应。实践层面则开创了AI辅助媒体监督的新范式：通过自动化工具实时分析报道质量，既解决人工审核的效率瓶颈，又能为记者提供即时反馈。研究者特别建议采用"人在环路"(human-in-the-loop)的混合模式，初期由AI筛查可疑内容再由专家复核，平衡效率与准确性。

研究也客观指出了若干局限：样本仅涵盖印刷媒体，未涉及社交媒体等新兴平台；评估指标未包含图像分析；仅测试了两款LLMs的性能。未来研究可扩展至视频内容分析(如TikTok)、开发多语言系统，并探索AI直接修改不符合指南报道的可能性。更宏大的愿景是将此技术应用于其他敏感话题(如凶杀案报道)的伦理审查，构建AI赋能的公共心理健康防护网。

这项研究标志着人工智能在公共卫生干预领域的重要突破。当自杀预防遭遇媒体伦理的复杂挑战，大型语言模型展现出令人期待的解决方案潜力——不仅能够规模化实施WHO指南，还可能通过技术赋能重塑社会对自杀问题的叙事方式。随着AI技术的持续进化，这种人机协作的监督模式或将成为守护公共心理健康的新常态。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号