编辑推荐:
为解决现有机器人人格模拟局限于大五模型、缺乏认知过程的问题,研究人员构建融合 ChatGPT-4 的认知机器人框架,结合多人格理论模拟人格与认知。结果显示该框架可生成拟人化反应,通过 IPIP-NEO 等验证,提升人机交互体验,为机器人社交能力发展提供新路径。
在人机交互领域,机器人能否拥有类似人类的个性特征并自然融入社交场景一直是研究热点。现有的机器人人格设计多基于大五人格模型(BFI),仅停留在外向性、宜人性等表层维度,缺乏对人类认知核心要素如记忆、情绪、意图的模拟,导致交互过程机械生硬,难以应对复杂社交情境。例如,传统模型忽视动机驱动、心理理论(ToM,即理解他人心理状态的能力)及多模态信息处理,无法实现灵活自然的对话动态和用户体验提升。因此,构建一个融合认知过程与多元人格理论的机器人框架,成为突破现有瓶颈的关键。
为此,来自台湾大学机械工程系与长荣基督教大学健康心理学系的研究人员,开展了 “基于大语言模型的机器人人格模拟与认知系统” 研究。他们设计了搭载 ChatGPT-4 的认知机器人 Mobi,通过整合凯利角色构念理论、卡特尔 16 人格因素(16PF)等多元心理理论,构建了包含记忆、情绪、意图、视觉注意力的完整认知架构。研究成果发表在《Scientific Reports》,为智能机器人的社会化应用奠定了重要基础。
研究采用的关键技术方法包括:
- 状态空间建模:将机器人与环境状态定义为矩阵形式(如Xagent和Xenvironment),通过状态转移函数模拟交互动态;
- 记忆系统构建:短期记忆(STM)通过缓冲列表存储对话历史,长期记忆(LTM)利用文档嵌入技术(如 Transformer 编码器)和时间标签实现内容与时间维度的检索;
- 情绪与意图生成:基于马斯洛需求层次理论,通过欲望函数fdesire和规划函数fplanning驱动行为目标,结合未来事件预测(如预期结果与目标匹配度)生成情绪反应;
- 多模态处理:利用视觉提示工程设计视觉处理单元,解析图像内容并引导注意力机制。
研究结果
1. 人格模拟的有效性验证
通过国际人格项目池 - 神经质、外向性和开放性量表(IPIP-NEO)与大五人格测试(BFI)评估发现,Mobi 的人格特征(低外向性、低神经质、高宜人性 / 开放性 / 尽责性)与目标人格(研究者设定)高度吻合,两组量表结果相关性达R2=0.86,证明了模拟的稳定性与有效性。
2. 认知功能的拟人化表现
- 心理理论(ToM):在改良版心理理论数据集(ToMi)测试中,Mobi 在二阶信念任务中表现优于基准模型(GPT-4 等),准确率达 84%,显示出对他人心理状态的推理能力;
- 社交冲突处理:在冲突场景模拟中,Mobi 能基于情绪模型(如愤怒 / 恐惧反应)和意图规划,选择避免冲突的策略,符合预设的安全导向人格;
- 多模态交互:通过图像描述与长期记忆联动(如根据粉色马卡龙关联草莓口味偏好),Mobi 可实现文本 - 视觉融合的自然对话,提升交互沉浸感。
3. 构造效度与可靠性分析
对 30 组人格模拟数据与 31 名人类受试者的对比显示,IPIP-NEO 各维度信度(克隆巴赫 α 系数 0.75-0.87)达标,收敛效度(如外向性收敛相关 0.88)与区分效度均符合心理测量学标准,证明模型能有效捕捉人类人格的核心特征。
结论与意义
本研究突破传统大五模型的局限,构建了首个融合多元心理理论与认知过程的机器人框架。通过 ChatGPT-4 驱动的状态空间建模、记忆 - 情绪联动机制及多模态处理,Mobi 实现了从 “功能型工具” 到 “社交型主体” 的跨越。其核心价值在于:
- 理论创新:整合凯利角色构念、卡特尔 16PF 等理论,拓展了机器人人格的维度深度,填补了传统模型缺乏内在认知的空白;
- 技术突破:通过文档嵌入、视觉提示工程等技术,解决了长期记忆检索与多模态注意力分配的难题,为人机交互的自然性提供技术支撑;
- 应用前景:可应用于医疗陪伴、教育辅助等场景,通过模拟个性化人格(如高宜人性的护理机器人)提升用户接受度,同时为 “数字孪生” 技术在行为预测中的应用提供新思路。
尽管研究存在处理延迟(10-15 秒)、非语言表达(如语音语调、表情)尚未完全实现等局限,但其提出的认知架构为动态人格模型(如随交互进化的人格)和长期社交影响研究奠定了基础,有望推动机器人从工业场景向复杂社会环境的渗透。