大型语言模型能否评估儿童陈述可信度？ChatGPT与人类专家在基于标准内容分析(CBCA)中的一致性比较

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月25日 来源：Journal of Evidence-Based Social Work 1.4

编辑推荐：

　　为解决儿童性侵陈述可信度评估中人工判读效率与一致性问题，研究人员开展了一项开创性研究，对比法医心理学家、社工与ChatGPT(GPT-4o Plus)在基于标准内容分析(CBCA)框架下的评估差异。结果显示人类专家间具有15/19项"良好-优秀"一致性(ICC>0.75)，而AI模型在需要情境判断的指标上出现系统性偏差(如"逻辑结构"ICC=-0.106)，证实当前生成式AI尚无法替代专业判断，但或可作为辅助工具。该研究为司法评估领域AI应用划定了重要边界。

这项研究犹如在司法评估领域投下一枚"智能探测器"，系统比较了人类专家与人工智能在儿童陈述可信度评估中的表现。研究团队采用基于标准内容分析(Criteria-Based Content Analysis, CBCA)的19项标准，对65份儿童性侵受害者法医访谈转录本(N=65)进行三重盲审评估。

法医心理学家与社会工作者这对"人类黄金组合"展现出令人欣慰的默契，在15项CBCA标准上达成ICC>0.75的优异一致性，仿佛两位经验丰富的鉴宝专家对古董真伪的精准判断。然而当ChatGPT(GPT-4^o Plus)这位"数字侦探"加入战局后，画风突变——在需要理解微妙情境的指标上，AI的评估逻辑与人类专家产生戏剧性分歧，甚至出现ICC=-0.106的"反相关"现象，犹如用温度计测量音高般南辕北辙。

特别值得注意的是，AI在"逻辑结构"等需要整合上下文信息的项目上表现最差，其判断模式更接近"关键词扫描仪"而非专业评估者。这提示当前基于提示工程(prompt-engineered)的大语言模型，在处理需要"读心术"般的儿童心理评估任务时，仍像戴着厚重手套的钢琴师，难以捕捉情感表达的细腻音符。

研究者形象地指出，这类AI或许能成为专家腰间的"智能瑞士军刀"，但绝非法庭上的"电子法官"。该发现为AI在司法评估中的应用划出清晰红线：当涉及儿童证词这类需要"心灵显微镜"的精密判断时，人类专家特有的情境感知与专业直觉，仍是不可替代的"生物算法"。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号