
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型能否评估儿童陈述可信度?ChatGPT与人类专家在基于标准内容分析(CBCA)中的一致性比较
【字体: 大 中 小 】 时间:2025年08月25日 来源:Journal of Evidence-Based Social Work 1.4
编辑推荐:
为解决儿童性侵陈述可信度评估中人工判读效率与一致性问题,研究人员开展了一项开创性研究,对比法医心理学家、社工与ChatGPT(GPT-4o Plus)在基于标准内容分析(CBCA)框架下的评估差异。结果显示人类专家间具有15/19项"良好-优秀"一致性(ICC>0.75),而AI模型在需要情境判断的指标上出现系统性偏差(如"逻辑结构"ICC=-0.106),证实当前生成式AI尚无法替代专业判断,但或可作为辅助工具。该研究为司法评估领域AI应用划定了重要边界。
这项研究犹如在司法评估领域投下一枚"智能探测器",系统比较了人类专家与人工智能在儿童陈述可信度评估中的表现。研究团队采用基于标准内容分析(Criteria-Based Content Analysis, CBCA)的19项标准,对65份儿童性侵受害者法医访谈转录本(N=65)进行三重盲审评估。
法医心理学家与社会工作者这对"人类黄金组合"展现出令人欣慰的默契,在15项CBCA标准上达成ICC>0.75的优异一致性,仿佛两位经验丰富的鉴宝专家对古董真伪的精准判断。然而当ChatGPT(GPT-4o Plus)这位"数字侦探"加入战局后,画风突变——在需要理解微妙情境的指标上,AI的评估逻辑与人类专家产生戏剧性分歧,甚至出现ICC=-0.106的"反相关"现象,犹如用温度计测量音高般南辕北辙。
特别值得注意的是,AI在"逻辑结构"等需要整合上下文信息的项目上表现最差,其判断模式更接近"关键词扫描仪"而非专业评估者。这提示当前基于提示工程(prompt-engineered)的大语言模型,在处理需要"读心术"般的儿童心理评估任务时,仍像戴着厚重手套的钢琴师,难以捕捉情感表达的细腻音符。
研究者形象地指出,这类AI或许能成为专家腰间的"智能瑞士军刀",但绝非法庭上的"电子法官"。该发现为AI在司法评估中的应用划出清晰红线:当涉及儿童证词这类需要"心灵显微镜"的精密判断时,人类专家特有的情境感知与专业直觉,仍是不可替代的"生物算法"。
生物通微信公众号
知名企业招聘