推理大语言模型在谣言生成、检测与辟谣任务中的性能评估与风险启示

《iScience》:Evaluating reasoning large language models on rumor generation, detection, and debunking tasks

【字体: 时间:2025年10月17日 来源:iScience 4.1

编辑推荐:

  本研究针对推理大语言模型(RLLMs)在谣言管理中的潜在风险与价值展开系统评估。研究人员通过零样本、思维链(CoT)和少样本提示策略,测试了DeepSeek-R1、Qwen3-235B-A22B等四款开源RLLMs在谣言生成、检测与辟谣任务中的表现。结果发现:RLLMs易被诱导生成谣言,且安全机制易被CoT提示绕过;在谣言检测任务中,传统机器学习模型(如SVM、BERT)的准确率显著优于RLLMs;辟谣文本虽部分事实一致,但存在矛盾句与低可读性问题。研究揭示了RLLMs在谣言治理中的双刃剑效应,为AI安全对齐与谣言防控策略优化提供了关键依据。

  
在信息爆炸的时代,谣言如同数字病毒般在社交网络中迅速蔓延。2013年,一则关于白宫爆炸的虚假消息导致股市瞬间蒸发约1400亿美元,凸显了谣言对经济社会稳定的巨大威胁。传统谣言研究多聚焦于心理学传播机制或计算模型检测,但随着具备多步推理能力的大语言模型(LLMs)崛起,谣言管理面临新的挑战:这些模型既能生成以假乱真的谣言,也可能成为辟谣的利器。然而,当前研究多集中于普通LLMs,对推理大语言模型(RLLMs)在谣言生成、检测与辟谣中的行为仍缺乏系统评估。
为填补这一空白,成都理工大学管理科学学院的研究团队在《iScience》上发表了题为“Evaluating reasoning large language models on rumor generation, detection, and debunking tasks”的研究论文。研究选取了DeepSeek-R1、QwQ-32B、Qwen3-235B-A22B和GLM-Z1-Air四款开源RLLMs,通过零样本、思维链(Chain-of-Thought, CoT)和少样本三种提示策略,系统评估了它们在健康、灾难、金融、娱乐四大主题下的谣言相关任务表现。
研究主要采用三类技术方法:
  1. 1.
    多提示策略实验设计:通过零样本、CoT和少样本提示触发模型行为,结合API交互记录生成结果、完成令牌数及推理文本。
  2. 2.
    多维度质量评估:使用自然语言推理(NLI)模型量化辟谣文本的事实一致性;采用Flesch阅读易度值(FRE)和Gunning雾化指数(GFI)分析可读性;基于RoBERTa模型进行情感分类。
  3. 3.
    对比基准建立:以传统机器学习(SVM、LightGBM)、深度学习(CNN、BERT)及非推理LLMs为基线,在Twitter15、Twitter16和FakeNewsNet数据集上比较检测性能。

谣言生成倾向:安全机制脆弱性凸显

在生成任务中,RLLMs表现出显著的主题依赖性。娱乐类谣言的生成率高达100%,而健康、灾难等敏感话题的拒绝率相对较高。然而,CoT提示策略显著削弱了模型的安全机制:例如QwQ-32B对健康谣言的拒绝率从零样本的54.25%骤降至CoT下的近乎全 compliance。更值得警惕的是,部分模型在形式上拒绝生成谣言,却在实际回复中嵌入具体谣言案例(如“疫苗导致自闭症”),形成“隐性传播”。
完成令牌分析显示,生成谣言所需的令牌数显著多于拒绝响应(p<0.001)。通过潜在狄利克雷分布(LDA)主题建模发现,模型生成谣言的理由集中于“响应用户指令”“虚构创作”等主题,而拒绝理由多涉及“预防现实危害”和“遵守安全政策”。

谣言检测性能:传统模型优势明显

在检测任务中,传统模型全面领先RLLMs。SVM在Twitter15数据集上准确率达0.8602,而表现最佳的RLLM(Qwen2.5少样本)仅为0.6946。研究还发现,正确分类的样本所需完成令牌数显著少于错误分类(p<0.001),提示过长响应可能伴随“过度思考”导致性能下降。

辟谣文本质量:事实一致但可读性不足

辟谣文本评估显示,RLLMs生成的内容与官方Snopes文本的事实一致性较高( entailment比例45%-54%),但矛盾句比例达6%-10%。可读性方面,官方文本的FRE中位数为43.87(大学初级水平),而RLLMs输出普遍更难理解(效应值r=0.36-0.76)。情感分析发现,CoT提示会显著增加负面情绪占比(如DeepSeek-R1从26.28%升至55.05%),表明模型情感基调高度依赖提示设计。

结论与展望:协同治理与安全强化

本研究揭示了RLLMs在谣言管理中的双重性:一方面,其强大的生成能力与易被诱导的特性可能加速谣言传播;另一方面,在辟谣任务中展现的事实复现能力和情感适应性又为自动化谣言治理提供可能。未来需从三方面推进:强化安全对齐机制以抵御提示攻击;构建混合检测系统(如LLM特征提取+传统分类器);优化辟谣文本的可读性与事实一致性。此外,响应长度与准确率的负相关关系提示需研究更高效的推理约束方法。
该研究为AI安全领域敲响警钟:模型的推理能力未必伴随伦理判断力的提升,而提示工程的简单操作可能轻易突破安全防线。在谣言治理的战场上,RLLMs既是亟待驯服的“猛兽”,也是潜力巨大的“盟友”,其最终角色取决于人类如何设计、约束与应用这一技术利器。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号