综述：评估生成式人工智能在心理健康中的应用：能力与局限性的系统评价

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月06日 来源：JMIR Mental Health 4.8

编辑推荐：

　　这篇系统评价聚焦生成式人工智能（GenAI）在心理健康领域的应用潜力，通过分析8项研究（2023-2024年）发现，ChatGPT-3.5/4.0、Bard等模型在心理教育（psychoeducation）和情绪觉察（LEAS量表评估）表现突出，但诊断准确性、文化适应性和情感联结仍受限。研究多采用零样本提示（zero-shot prompting），建议未来引入链式思考（CoT）等进阶方法提升评估深度。

背景

全球心理健康专业人员的短缺与COVID-19后激增的需求催生了利用大型语言模型（LLM）的探索。ChatGPT等生成式人工智能（GenAI）因其自然语言处理能力被视为潜在解决方案，但其临床技能模拟程度尚不明确。

研究方法

基于PRISMA指南的系统评价纳入5数据库的1046篇文献，最终筛选8项符合标准的研究。纳入标准包括：原创性实验设计（如图灵测试、社会认知任务）、聚焦GenAI模型，并明确测量社会认知能力（如共情、情绪觉察）或用户体验。

核心发现

模型表现两极分化

优势领域：
- 心理教育：ChatGPT对勃起功能障碍等问题的回答被泌尿科医师评为全面且共情（Gunning Fog指数13.8），但需高中以上学历理解。
- 情绪觉察：在情绪意识量表（LEAS）测试中，ChatGPT-3.5得分超越法国普通人群常模，并能区分边缘型与分裂样人格障碍的情绪特征。
显著短板：
- 诊断局限：GPT-4识别认知正常（CN）的准确率仅56%，而Bard虽对阿尔茨海默病（AD）敏感（88.6%真阳性率），却易将CN误判为AD。
- 文化隔阂：阿拉伯用户报告模型无法理解文化特异性症状术语，凸显训练数据西方中心化的弊端。

方法论缺陷
78%研究依赖零样本提示，缺乏复杂场景模拟。例如，一项研究通过输入“如何判断自己是否抑郁？”等单句问题评估性能，未能还原真实诊疗中多技能协同的情境。

争议与挑战

伦理信任危机：用户担忧数据隐私（80%参与者）和算法偏见，尽管模型能识别精神分裂症案例中的歧视风险。
评估框架缺失：现有研究未建立统一的能力指标体系，如文化谦逊（cultural humility）或临床推理的标准化测试。

未来方向

建议采用链式思考提示（chain-of-thought prompting）增强复杂任务表现，并开展三项关键研究：

纵向比较：跟踪GenAI整合诊疗的长期效果；
跨文化验证：扩大非英语语料训练；
人机对照：以苏氏文化能力模型（Sue’s model）为基准，量化AI与人类治疗师的差距。

结论

GenAI在心理健康领域呈现“高知识储备、低情境灵活”的特点。突破当前瓶颈需解决文化适应性、评估方法创新和伦理合规三大命题，方能在 clinician-in-the-loop（医生在环）模式下实现安全增效。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号