LLM（法律硕士）在内容审核与用户满意度方面的作用：来自Chatbot Arena中用户拒绝回应数据的证据

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Behaviour & Information Technology》：LLM content moderation and user satisfaction: evidence from response refusals in Chatbot Arena

【字体：大中小】 时间：2025年10月11日 来源：Behaviour & Information Technology 3.1

编辑推荐：

　　LLM伦理对齐与拒绝回答对用户满意度的影响分析，基于50,000次模型对比实验，区分伦理和技术拒绝原因，发现伦理拒绝导致显著更高的用户不满（拒绝惩罚），但敏感上下文和详细回应可缓解负面影响，揭示安全行为与用户期望的冲突。

摘要

大语言模型（LLM）的安全性和伦理一致性一直备受关注，但模型拒绝回答用户请求对用户满意度的影响却尚未得到充分研究。特别是，人们对用户在这些情况下的反应知之甚少，而模型拒绝回答正是实现LLM伦理边界的主要机制之一。我们通过分析Chatbot Arena中近50,000次模型对比数据来填补这一空白，在这些数据中，用户需要在成对的模型回答中选择自己更喜欢的选项。我们使用了一种基于RoBERTa的新型分类器，并通过手工标注的数据对其进行微调，从而区分了由于伦理原因和技术限制导致的模型拒绝行为。研究结果表明，模型因伦理原因拒绝回答时，用户的满意度显著降低（其胜率甚至低于标准回答或技术性拒绝的情况）。然而，这种负面影响并非普遍存在：当问题本身涉及敏感内容（如非法内容）时，或者模型拒绝的表述方式详细且符合上下文时，用户的评价会相对较高。这些发现凸显了LLM设计中的一个核心矛盾：追求安全性的行为可能会与用户期望产生冲突，因此需要更加灵活的调节策略，以充分考虑上下文和表达方式的影响。

联系信箱：

粤ICP备09063491号

摘要

热点排行