编辑推荐:
青少年心理健康问题日益严峻,危机支持对话需求大增,人工处理负担重。研究人员开展 “Frontline Assistant: Issue Identification and Recommendation”(FAIIR)相关研究,发现 FAIIR 性能良好,能辅助危机响应者,对优化资源配置意义重大。
在当今社会,青少年心理健康问题逐渐成为人们关注的焦点。全球范围内,每七名 10 - 19 岁的青少年中就有一人经历心理健康问题,自杀更是 15 - 29 岁人群的第四大死因。在加拿大,五分之一的人在 25 岁前会经历精神疾病。然而,尽管 70% 的精神疾病始于儿童或青少年时期,但只有一小部分年轻人能够获得适当的护理,这导致青少年因精神健康障碍住院的比率不断上升。
为了解决这些问题,来自多个机构的研究人员开展了一项旨在提升青少年心理健康服务的研究。其中,Kids Help Phone(KHP)作为一家加拿大非营利性电子心理健康组织,其提供的危机支持对话服务在青少年心理健康支持中发挥着关键作用。但随着服务需求的激增,如自 2018 年 KHP 推出短信服务以来,已促成超 100 万次短信互动,2020 年新冠疫情期间更是显著增加 51%,这使得危机响应者(CRs)面临巨大的工作压力。同时,青少年对话中问题的复杂性、CRs 处理情绪压力个体时的认知负担,以及后续调查工作的繁琐,都给危机支持服务带来了诸多挑战。
在此背景下,研究人员开发了 “Frontline Assistant: Issue Identification and Recommendation”(FAIIR),这是一种基于领域适应的变压器模型集成系统,旨在减轻 CRs 的认知负担,提高问题识别的准确性,并简化对话后的管理任务。该研究成果发表在《npj Digital Medicine》上,为青少年心理健康服务提供了新的解决方案。
研究人员主要运用了以下关键技术方法:
- 自然语言处理(NLP)技术:利用 NLP 技术对大量文本对话进行处理和分析,以识别其中的关键问题。
- 模型训练与优化:使用 780,000 次对话数据对多种预训练的变压器模型进行比较和评估,最终选择 Longformer 模型,并通过集成三个 Longformer 模型构建 FAIIR 工具。在训练过程中,进行了领域适应、超参数调整等优化操作。
- 数据处理与标注:对 703,975 次对话数据进行匿名化处理,并由 CRs 手动标注 19 种预定义的问题标签,用于模型训练和评估。同时,通过专家评估和沉默测试对模型进行验证和优化。
研究结果如下:
- 危机支持对话数据集:用于开发 FAIIR 的数据集包含 703,975 次匿名文本对话,对话长度差异较大,平均和中位数令牌数分别为 913 和 850。此外,17% 的服务用户完成了可选的人口统计调查,但结果不能完全代表所有服务用户的分布。
- FAIIR 问题标签预测:FAIIR 是一个多标签分类模型,可将对话分类为 19 个预定义的问题类别。数据中问题标签的分布高度不平衡,多数对话被归类为高风险(13%)或中风险(87%)。在问题标签预测任务中,集成的 Longformer 模型表现出色,AUC ROC 得分多数超过 0.9,但由于数据不平衡,精度相对较低,召回率较高。在识别高优先级问题时,模型表现良好,但对于罕见问题的性能有待提高。
- FAIIR 工具预测的公平性:通过对 27 个不同人口统计子群体的分析,发现 FAIIR 工具在不同子群体中的性能差异较小,F1 分数的标准差小于 0.025,表明模型在不同人口统计群体中表现一致,不存在显著的采样偏差。
- 专家评估与验证:研究人员邀请 12 位专家对 FAIIR 的预测进行评估,共获得 240 次注释。结果显示,CRs 与 FAIIR 工具的预测总体一致性达到 90.9%。在盲评中,FAIIR 的预测与专家注释的一致性高于原始标签,表明 FAIIR 能够更好地理解对话上下文。
- 沉默测试性能:在沉默测试阶段,使用 84,832 次 2023 年 2 月至 9 月的对话数据对 FAIIR 进行测试。结果表明,FAIIR 的性能与开发阶段一致,AUC ROC 得分多数仍高于 0.9,样本平均精度、召回率和 F1 分数下降均小于 2%。
研究结论和讨论部分指出,FAIIR 在识别服务用户问题方面表现出了较高的准确性和可靠性,准确率达到 94%,样本平均 F1 分数为 64%,样本平均召回率为 81%。同时,FAIIR 在不同人口统计群体中表现公平,为 CRs 提供了有效的支持,有助于优先处理紧急情况和合理分配资源。然而,研究也存在一些局限性,如依赖预定义的 19 个问题标签,可能限制了模型对新问题的识别能力;数据集中问题标签分布不平衡,影响了模型对罕见问题的识别性能;对话数据的多样性和长度差异、数据质量等问题也给模型训练带来了挑战。
尽管如此,FAIIR 工具仍展现出了在心理健康支持领域的巨大应用潜力。未来,研究人员计划将其部署到实时问题标签识别中,并通过结合生成式语言模型和基于解码器的模型进一步提升其性能。同时,还将评估识别出的自然关键词的可用性和有效性。该研究为在心理健康和危机支持服务中广泛应用对话式人工智能模型奠定了基础,有望为青少年心理健康服务带来新的变革,为青少年的心理健康保驾护航。