
-
生物通官微
陪你抓住生命科技
跳动的脉搏
LLM(法律硕士)在内容审核与用户满意度方面的作用:来自Chatbot Arena中用户拒绝回应数据的证据
《Behaviour & Information Technology》:LLM content moderation and user satisfaction: evidence from response refusals in Chatbot Arena
【字体: 大 中 小 】 时间:2025年10月11日 来源:Behaviour & Information Technology 3.1
编辑推荐:
LLM伦理对齐与拒绝回答对用户满意度的影响分析,基于50,000次模型对比实验,区分伦理和技术拒绝原因,发现伦理拒绝导致显著更高的用户不满(拒绝惩罚),但敏感上下文和详细回应可缓解负面影响,揭示安全行为与用户期望的冲突。
大语言模型(LLM)的安全性和伦理一致性一直备受关注,但模型拒绝回答用户请求对用户满意度的影响却尚未得到充分研究。特别是,人们对用户在这些情况下的反应知之甚少,而模型拒绝回答正是实现LLM伦理边界的主要机制之一。我们通过分析Chatbot Arena中近50,000次模型对比数据来填补这一空白,在这些数据中,用户需要在成对的模型回答中选择自己更喜欢的选项。我们使用了一种基于RoBERTa的新型分类器,并通过手工标注的数据对其进行微调,从而区分了由于伦理原因和技术限制导致的模型拒绝行为。研究结果表明,模型因伦理原因拒绝回答时,用户的满意度显著降低(其胜率甚至低于标准回答或技术性拒绝的情况)。然而,这种负面影响并非普遍存在:当问题本身涉及敏感内容(如非法内容)时,或者模型拒绝的表述方式详细且符合上下文时,用户的评价会相对较高。这些发现凸显了LLM设计中的一个核心矛盾:追求安全性的行为可能会与用户期望产生冲突,因此需要更加灵活的调节策略,以充分考虑上下文和表达方式的影响。