大型语言模型能否评估儿童陈述可信度?ChatGPT与人类专家在基于标准内容分析(CBCA)中的一致性比较

【字体: 时间:2025年08月25日 来源:Journal of Evidence-Based Social Work 1.4

编辑推荐:

  为解决儿童性侵陈述可信度评估中人工判读效率与一致性问题,研究人员开展了一项开创性研究,对比法医心理学家、社工与ChatGPT(GPT-4o Plus)在基于标准内容分析(CBCA)框架下的评估差异。结果显示人类专家间具有15/19项"良好-优秀"一致性(ICC>0.75),而AI模型在需要情境判断的指标上出现系统性偏差(如"逻辑结构"ICC=-0.106),证实当前生成式AI尚无法替代专业判断,但或可作为辅助工具。该研究为司法评估领域AI应用划定了重要边界。

  

这项研究犹如在司法评估领域投下一枚"智能探测器",系统比较了人类专家与人工智能在儿童陈述可信度评估中的表现。研究团队采用基于标准内容分析(Criteria-Based Content Analysis, CBCA)的19项标准,对65份儿童性侵受害者法医访谈转录本(N=65)进行三重盲审评估。

法医心理学家与社会工作者这对"人类黄金组合"展现出令人欣慰的默契,在15项CBCA标准上达成ICC>0.75的优异一致性,仿佛两位经验丰富的鉴宝专家对古董真伪的精准判断。然而当ChatGPT(GPT-4o Plus)这位"数字侦探"加入战局后,画风突变——在需要理解微妙情境的指标上,AI的评估逻辑与人类专家产生戏剧性分歧,甚至出现ICC=-0.106的"反相关"现象,犹如用温度计测量音高般南辕北辙。

特别值得注意的是,AI在"逻辑结构"等需要整合上下文信息的项目上表现最差,其判断模式更接近"关键词扫描仪"而非专业评估者。这提示当前基于提示工程(prompt-engineered)的大语言模型,在处理需要"读心术"般的儿童心理评估任务时,仍像戴着厚重手套的钢琴师,难以捕捉情感表达的细腻音符。

研究者形象地指出,这类AI或许能成为专家腰间的"智能瑞士军刀",但绝非法庭上的"电子法官"。该发现为AI在司法评估中的应用划出清晰红线:当涉及儿童证词这类需要"心灵显微镜"的精密判断时,人类专家特有的情境感知与专业直觉,仍是不可替代的"生物算法"。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号