RVBench：面向角色扮演大语言模型的价值评估基准与数据集构建

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月23日 来源：Computers in Human Behavior: Artificial Humans

编辑推荐：

　　随着大语言模型（LLMs）在角色扮演领域的广泛应用，其价值取向的评估成为提升交互真实性的关键瓶颈。本研究创新性地构建了包含25个典型角色的价值数据集（RVD），并开发了RVBench评估框架，通过价值观量表（PVQ-RR）和困境决策双维度测试，首次系统评估了LLMs在角色扮演中的价值一致性。结果显示GLM-4表现最优，但所有模型在自我导向行动（SDA）等维度仍存在显著差距，为AI价值对齐研究提供了重要方法论和基准工具。

在人工智能技术飞速发展的今天，大语言模型（LLMs）已能模拟医生、教师等专业角色，但一个关键问题始终悬而未决：这些"数字演员"是否真正内化了角色的核心价值观？传统评估多关注对话流畅度等表面指标，而价值取向——这个决定角色行为逻辑的核心维度——却缺乏系统性的评估工具。正如现实中演员需要理解角色动机才能生动表演，LLMs若无法把握角色价值体系，其扮演终究只是"形似神离"。

针对这一空白，国内研究团队开展了开创性研究。他们从中国四大名著中精选25个典型角色（如孙悟空、曹操等），通过专家标注构建了角色价值数据集（RVD），涵盖普遍关怀（UNC）、权力支配（POD）等19个价值维度。基于心理学测量方法，团队开发了RVBench评估框架，包含价值观量表测试（PVQ-RR）和困境决策实验。前者通过57项问卷直接评估模型价值取向，后者设计28个道德困境（如"是否冒险救助传染病患者"）检验行为与价值观的层级一致性。

研究采用三项关键技术：1）基于PVQ-RR量表的跨维度评分；2）人机协作生成的道德困境数据集；3）创新性提出价值一致性指标C_rating、C_item和C_ranking。在测试GPT-4、GLM-4等主流模型后发现：GLM-4在84%角色中价值排序最接近人类标注，但在自我导向行动（SDA）维度所有模型表现最差（61.06%一致性）。更值得关注的是，模型在困境测试中的表现显著低于量表测试，印证了心理学界"多维强制选择法比李克特量表更能揭示真实状态"的结论。

研究结果部分揭示三大发现：

价值评分一致性
GLM-4在73.68%价值维度（如普遍关怀、传统遵守）表现最优，其总体评分一致性达73.31±7.64%，显著高于GPT-4（63.45±10.17%）。但所有模型在自我导向行动（SDA）维度均出现最大偏差。
条目稳定性差异
通过C_item分析发现，LLMs在仁慈可靠性（BED）等维度表现出异常高的一致性（可能反映刻板应答），而在普遍自然（UNN）、安全个人（SEP）等维度则显著低于人类稳定性（p<0.001）。
困境决策断层
尽管GLM-4在84%角色中保持价值排序一致性，但GPT-4和Qwen-plus在张飞、贾母等角色测试时出现量表高分但困境决策失准的现象，证实了单纯依赖量表评估的局限性。

这项发表于《Computers in Human Behavior: Artificial Humans》的研究具有多重意义：方法论上，首次将心理学验证的多维强制选择（MFC）测量引入LLM评估；应用层面，为医疗对话机器人、教育角色模拟等场景提供价值校准工具；理论上，揭示了LLMs"知""行"分离的现象——模型能描述角色价值观，却难以在具体情境中践行。正如研究者指出，真正的角色扮演不应止于"形似"，而需追求"神合"，这项研究为构建更有灵魂的AI角色迈出了关键一步。未来，通过微调和提示工程提升模型的价值情境适应性，或将开启人机交互的新纪元。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号