大型语言模型(LLM)与人类在儿童调查访谈问题构建任务中的表现

《Behavioral Sciences & the Law》:Large Language Model (LLM) and Human Performance in Child Investigative Interviewing Question Formulation Tasks

【字体: 时间:2025年12月10日 来源:Behavioral Sciences & the Law 1.3

编辑推荐:

  儿童调查性采访中大型语言模型(LLMs)与人类面试者性能比较。通过静态摘要任务和动态虚拟化身任务,发现LLMs在静态任务中生成开放式问题的比例(GPT-4达67.8%)显著优于人类,但在动态任务中因无法有效维持话题焦点,推荐问题使用率(8.69次)低于专业受训人员(18.75次)。研究指出LLMs在引导开放式提问和适应动态交互方面存在局限性,专业培训显著提升人类访谈者的问题质量。

  
本研究旨在评估大型语言模型(LLMs)在儿童调查性访谈中的提问能力,并与人类专家及非专业人士进行对比。研究通过两个实验任务——动态虚拟儿童访谈和静态访谈摘要任务,系统性地检验了LLMs在不同情境下的表现及其局限性。

### 一、研究背景与核心问题
儿童调查性访谈的质量直接影响案件侦办结果,而高质量的提问需遵循开放性原则,避免引导性问题。当前儿童访谈存在两大痛点:一是专业培训资源匮乏,二是人类访谈者易受疲劳、分心等因素影响。LLMs因其持续学习能力和结构化数据处理潜力,被视为可能的解决方案,但其在动态交互中的适应性仍需验证。

### 二、实验设计与关键发现
#### 1. 动态虚拟儿童访谈(实验1)
- **任务设计**:通过AI驱动的儿童虚拟形象,模拟真实访谈场景,考察模型在实时互动中的提问质量。
- **参与群体**:包括经培训的专业人士(临床心理学家、警察)、未经培训的普通参与者,以及GPT-4模型。
- **核心指标**:推荐问题数量、非推荐问题占比、正确信息提取率、错误信息触发率。
- **结果分析**:
- **专业人群表现**:接受过反馈训练的专业人士在推荐问题使用率(18.75/次)、正确信息提取(5.38/次)方面显著优于未受训群体(8.13/次)。
- **LLMs表现**:GPT-4在推荐问题使用量(8.69/次)和正确信息提取(1.56/次)上仅略优于未受训人群,且错误信息触发率(0.38/次)虽低于人类,但未达到专业标准。
- **关键挑战**:LLMs难以维持对敏感话题的专注,频繁偏离主线。例如,在询问儿童“与父亲共度时光”时,模型转向讨论儿童喜欢的动画角色(如《龙猫》),导致有效信息获取不足。

#### 2. 静态访谈摘要任务(实验2)
- **任务设计**:提供匿名化访谈摘要,要求生成下一问题,消除实时干扰因素。
- **模型对比**:GPT-4与Llama-2模型,以及经心理学训练和未经训练的人类参与者进行对比。
- **结果分析**:
- **GPT-4优势**:在优化提示(强调开放式提问)下,GPT-4的推荐问题使用率(67.8%)显著高于人类参与者(心理学背景者31.4%,普通参与者36.9%),且错误信息触发率最低(0.38%)。
- **Llama-2局限**:未通过优化提示测试,开放式问题使用率(5.39%)低于人类,且频繁生成复杂或多问题组合。
- **人类表现差异**:心理学背景参与者提问质量提升有限(从31.4%到36.9%),表明仅专业知识不足以应对结构化提问任务。

### 三、核心结论与启示
1. **场景依赖性**:
- LLMs在结构化静态任务中表现优异,GPT-4的开放式提问占比达67.8%,但动态场景中适应性不足,易偏离主题。
- 人类专家在反馈干预后提问质量提升显著(推荐问题从12.25增至18.75),显示持续反馈机制的重要性。

2. **模型能力边界**:
- **优势**:LLMs能高效处理标准化问题生成,如GPT-4在静态任务中错误率低于人类(0.38% vs. 0.26-2.63%)。
- **劣势**:动态场景中,模型难以识别儿童情绪变化(如回避回答),且缺乏对复杂语境的深度理解。例如,面对儿童含糊回应时,模型易生成开放式问题(正确率仅35%),而人类通过非语言信号调整提问策略。

3. **技术优化方向**:
- **提示工程**:需针对不同任务设计专用提示。实验2的优化提示(明确禁止引导性问题,强制使用特定提问句式)使GPT-4表现提升27%。
- **多模态融合**:结合儿童肢体语言、语音语调分析,可提升提问相关性。当前研究仅依赖文本输入,未整合非语言信息。
- **持续学习机制**:在真实案例中迭代训练模型,使其适应复杂对话路径。研究显示,单次对话训练后模型表现提升有限,需建立长期反馈闭环。

### 四、实践建议与伦理考量
1. **工具定位**:LLMs更适合作为辅助工具,如预审访谈摘要生成问题清单,或实时监测提问合规性,而非直接替代人类访谈者。
2. **伦理风险**:
- **数据隐私**:需本地化部署模型(如Llama-2),避免敏感信息外传。
- **偏见放大**:若训练数据包含地域性案例,可能强化地域性提问倾向,需建立多文化验证机制。
3. **培训模式**:开发LLMs专用训练模块,例如模拟儿童抗拒场景(“沉默”概率达40%),提升模型应变能力。

### 五、未来研究方向
1. **跨模型对比**:测试多模态模型(如GPT-4V)在儿童图像描述与文本问答结合场景中的表现。
2. **长程记忆测试**:设计持续30分钟的虚拟访谈,评估模型对儿童叙事逻辑的跟踪能力。
3. **混合系统开发**:探索人类专家与LLMs协同工作模式,例如专家制定问题框架,模型实时生成符合指南的追问。

### 六、总结
本研究证实LLMs在结构化任务中具备潜力,但动态场景适应性不足。GPT-4在静态任务中可替代专业心理学家的提问质量(F=13.258, p<0.001),但在模拟真实访谈中表现与未经训练人类相当。未来需通过多模态输入和持续反馈机制优化模型,同时建立严格的伦理审查框架,确保技术应用于儿童保护场景的安全性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号