基于大语言模型的情绪障碍筛查系统EmoScan的开发与验证
《Communications Medicine》:Enhanced large language models for effective screening of depression and anxiety
【字体:
大
中
小
】
时间:2025年11月07日
来源:Communications Medicine 6.3
编辑推荐:
本研究针对抑郁和焦虑障碍筛查耗时费力、临床数据稀缺的难题,开发了PsyInterview数据生成管道合成临床访谈对话,并训练出大语言模型系统EmoScan。该系统在情绪障碍筛查中F1分数达0.7467,显著优于GPT-4等基线模型,其解释生成质量(BERTScore=0.9408)和访谈能力均表现优异,为精神健康领域的AI辅助筛查提供了可扩展解决方案。
在全球范围内,情绪障碍如同无形的流行病,影响着数亿人的身心健康。抑郁和焦虑障碍作为最常见的心理健康问题,不仅给患者带来巨大痛苦,还造成全球每年超过6.5万亿美元的医疗成本。然而,传统的筛查方法依赖专业医生的面对面访谈,过程既耗时又费力,在医疗资源匮乏地区尤其难以开展。
近年来,大语言模型(Large Language Model, LLM)的突破性进展为心理健康筛查带来了新希望。这些模型能够理解和生成类人文本,理论上可以模拟专业医生的访谈过程。但现实情况是,训练高质量的临床LLM面临两大挑战:真实临床数据的敏感性和隐私限制,以及数据收集的高成本。现有的研究多基于社交媒体数据,缺乏临床访谈的结构化信息,难以直接应用于临床场景。
为了突破这些限制,由香港大学和清华大学研究人员组成的团队在《Communications Medicine》上发表了创新性研究,他们开发了一种全新的数据生成管道,能够自动合成高质量的临床访谈数据,并在此基础上训练出专门用于情绪障碍筛查的AI系统——EmoScan。
研究人员首先构建了一个四阶段的数据生成管道,能够将各种形式的病例描述转化为精神科医生与患者之间的对话。该管道首先收集来自临床案例手册、研究论文等源的病例信息,然后按照标准模板提取关键临床要素,再根据精神病学访谈指南生成原始对话,最后进行精细化处理,去除敏感信息并确保对话自然流畅。
通过这一管道,研究团队生成了包含1,157个案例的PsyInterview数据集,涵盖情绪障碍、其他精神障碍和健康对照组。为确保数据质量,三位具有10年以上临床经验的精神科医生和临床心理学家对生成的对话进行了严格评估,从信息对齐度、对话自然性和解释逻辑性等维度进行评分,结果显示数据质量达到可接受标准。
基于这一数据集,研究人员开发了EmoScan系统,该系统包含两个核心代理:筛查代理和访谈代理。筛查代理基于微调的Mistral-7B模型,能够根据对话历史提供筛查结果和基于DSM-5(Diagnostic and Statistical Manual of Mental Disorders, Fifth Edition)标准的解释;访谈代理则负责与用户进行交互,收集必要的临床信息。
研究采用的主要技术方法包括:基于大语言模型的数据生成管道、多轮对话合成技术、专家质量评估体系、模型微调策略以及自动化与人工结合的评价框架。数据来源包括公开的临床案例资料和PESC数据集,所有评估数据均来自公开出版物而非直接来自患者。
研究首先评估了EmoScan在情绪障碍筛查方面的性能。在粗粒度分类(区分抑郁障碍、焦虑障碍与健康对照组)任务中,EmoScan的加权F1分数达到0.7467,显著优于所有基线模型。特别是在抑郁障碍(F1=0.6333)和焦虑障碍(F1=0.8567)的识别上表现优异。与基线模型相比,EmoScan表现出更高的精确度,减少了误诊风险。
在细粒度分类(识别特定情绪障碍如重度抑郁障碍、广泛性焦虑障碍)任务中,尽管任务难度增加,EmoScan仍表现出明显改进(F1=0.2567),而基础模型最高仅达0.0467。这表明PsyInterview数据集的有效性,即使在样本量有限的细粒度分类任务中也能带来显著提升。
解释生成质量评估显示,EmoScan在BERTScore(0.9408)、BLEU(0.0660)和ROUGE-1(0.3951)等指标上均表现优异,表明其生成的解释与真实临床解释具有高度的语义一致性,有助于医生理解模型的决策逻辑。
研究还测试了EmoScan在外部数据集D4上的泛化能力,该数据集包含模拟抑郁筛查对话。EmoScan(F1=0.67)优于基础模型Mistral-7B(F1=0.64),但性能较内部验证有所下降。分析发现,这种性能下降可能与两个数据集在文本长度和语言风格上的差异有关,提示跨领域泛化仍是未来需要解决的挑战。
在访谈能力评估中,EmoScan在病史收集和访谈结束等关键维度上均优于Mistral、Llama3和GPT-4等基线模型。评估采用GPT-4作为自动评分者,并与人类专家评分进行一致性检验,结果显示GPT-4与人类专家的评价具有显著相关性(χ2∈[9.6004,69.8743],p<0.05),支持了自动化评估的可靠性。
研究结论强调,EmoScan在情绪障碍筛查、解释生成和临床访谈方面均表现出色,为心理健康领域的AI辅助筛查提供了有力工具。数据生成管道解决了临床数据稀缺和隐私限制的难题,而EmoScan系统则展示了LLM在专业医疗场景中的应用潜力。
然而,研究也指出了若干局限性:细粒度情绪障碍的样本量有限,焦虑与抑郁共病案例较少,缺乏多模态信息整合,以及跨领域泛化能力有待提升。未来研究需要扩大样本规模,纳入更多共病案例,探索多模态数据融合,并在多样化人群中验证模型性能。
这项研究的创新之处在于首次将结构化临床访谈生成与筛查、访谈功能整合到单一系统中,为心理健康筛查提供了可扩展的解决方案。尽管EmoScan目前仍处于研究阶段,但它为未来开发更可靠、更易获取的心理健康筛查工具奠定了重要基础,特别是在资源有限的环境中具有重要应用前景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号