利用时间线整合方法有效检测自杀念头
《Expert Systems with Applications》:Leveraging Timeline Integration Methods for Effective Suicidal Ideation Detection
【字体:
大
中
小
】
时间:2025年11月06日
来源:Expert Systems with Applications 7.5
编辑推荐:
自杀意念检测需整合用户多时间点社交媒体内容,现有方法易忽略时间依赖且超出模型输入限制。本文提出时间整合方法(TIMs),通过提示机制逐步引入历史帖子信息,提升LLMs对自杀风险演变的分析能力。实验表明TIMs显著提升长序列数据处理效果,且医疗专用LLMs结合TIMs性能最优,通用LLMs因理解能力差异需针对性优化。
自杀意念检测(Suicidal Ideation Detection, SID)是一项重要的任务,其核心在于通过分析用户在社交媒体上的内容,评估自杀意念(Suicidal Ideation, SI)的严重程度,从而实现早期干预。随着人工智能技术的快速发展,特别是大型语言模型(Large Language Models, LLMs)在自然语言理解方面的能力提升,SID的研究进入了一个新的阶段。然而,现有的方法在处理用户多条社交媒体内容时,往往忽视了内容之间的时间依赖关系,导致对用户心理状态的判断不够精准。此外,由于某些用户的社交媒体内容可能过于冗长或数量过多,这也会超出LLMs的输入长度限制。为了解决这些问题,本研究提出了一种基于时间线整合的方法(Timeline Integration Methods, TIMs),通过引入提示组件,如先前帖子的预测标签分布或最近的帖子内容,来捕捉时间依赖性,从而提升模型对SI风险变化的追踪能力。
当前,全球范围内抑郁症、焦虑症等精神疾病每年导致约1万亿美元的生产力损失(NAMI, 2023),并且是自杀意念的主要风险因素之一(Ji et al., 2021)。据世界卫生组织统计,2021年全球约有72.6万人尝试自杀,使其成为15-29岁群体中第三大死亡原因(World Health Organization, 2024)。因此,对SI的早期识别和干预已成为预防自杀的重要手段。然而,社会偏见和缺乏及时的治疗途径使得许多人在需要帮助时无法获得有效的支持(Gaur et al., 2021a)。在这种背景下,社交平台如Instagram和Reddit的出现,为识别处于SI风险中的用户提供了新的可能性。这些平台上的用户常常会通过发布内容表达他们的心理痛苦和想法,吸引了研究人员对SID技术的关注。
以往的SID研究多采用预训练语言模型(Pre-trained Language Models, PLMs),这些模型通常在SID数据集的训练集上进行微调(Ji, Zhang, Ansari, Fu, Tiwari, Cambria, 2022;Jiang, Levitan, Zomick, Hirschberg, 2020)。然而,由于大规模、高质量的心理健康数据难以获取(On, Kim, & Kim, 2024),PLMs的微调往往基于较小的数据集,这导致模型容易过拟合,限制了其泛化能力(Morales, Dey, Kohli, 2021;Sun, Qiu, Xu, Huang, 2019)。近年来,基于零样本学习的LLMs方法在多个领域取得了显著成果,因为它们不需要特定任务的微调(Agrawal, Hegselmann, Lang, Kim, Sontag, 2022;Liu, Huang, Yu, Zhang, Wu, Cao, Dai, Zhao, Li, Shu, et al.)。在此基础上,一些研究尝试通过比较不同LLMs的表现和设计角色扮演或情绪增强的提示来提升SID的效果(Wang, Zhao, Keller, de Hond, van Buchem, Pillai, & Hernandez-Boussard, Xu, Yao, Dong, Gabriel, Yu, Hendler, Ghassemi, Dey, Wang, 2024)。
然而,这些研究仍然存在一定的局限性。首先,在零样本学习的设置下,大多数LLMs同时处理用户的多条帖子,这可能导致忽略帖子之间的时间依赖性,使时间顺序变得模糊。例如,第5条帖子可能被误认为是第3条帖子的后续内容,从而难以识别这两条帖子之间的时间间隔。其次,一些用户的社交媒体内容可能过于冗长或数量众多,导致超出LLMs的输入长度限制。实际上,在我们对Llama2(Touvron et al., 2023)的实验中,发现某些用户的总帖子标记数达到了9,261,远远超过了输入长度的限制。第三,虽然医疗领域专用的LLMs被认为更适合SID任务,但目前尚无明确的比较研究能够区分医疗领域专用模型与通用模型之间的差异。因此,缺乏实证依据来支持这一假设。
为了解决上述问题,本研究围绕三个研究问题展开:
**RQ1:是否将TIMs应用于LLMs对SID任务具有有效性?**
为了与传统的ALL_POST方法进行对比,我们设计了三种不同的TIMs提示。ALL_POST是一种传统的提示方法,它一次性处理用户的全部帖子,而TIMs则通过估计每个时间点的SI标签,并将其作为后续预测的输入,从而捕捉帖子之间的时间依赖性。这种方法能够更准确地反映SI风险如何随时间演变(Algaows et al., 2021)。在我们的实验中,TIMs整体表现良好,特别是在处理包含长序列帖子的数据时。
**RQ2:哪一种针对LLMs的TIMs在SID任务中最为有效?**
考虑到不同LLMs在阅读理解方面的能力差异,我们预期最优的TIMs选择会因模型而异。在我们的实验中,发现TIMs的有效性取决于模型的阅读理解能力,某些模型在特定TIMs提示下表现更佳。
**RQ3:医疗领域专用的LLMs在SID任务中是否优于通用模型?**
研究发现,医疗领域专用的LLMs在SID任务中表现出更强的能力,尤其是在结合TIMs后,这些模型在捕捉帖子间的时间依赖性方面具有显著优势。此外,通用模型在预测过程中表现出的不一致性以及特定类型的错误进一步支持了医疗领域专用模型的优越性。
本研究的主要贡献包括以下几点:
1. 我们将TIMs应用于多种LLMs,显著提升了各模型在SID任务中的表现。通过捕捉时间依赖性,TIMs帮助模型更好地理解用户心理状态的变化,从而提高检测的准确性。
2. 通过分析不同模型在SID任务中的表现提升,我们强调了选择适合特定模型的TIMs的重要性。不同的TIMs提示可能对不同模型产生不同的效果,因此在实际应用中需要根据模型的特性进行选择。
3. 我们展示了医疗领域专用LLMs在SID任务中的优越性,证明它们在结合TIMs后能够优于通用模型。这不仅体现了医疗领域专用模型在捕捉时间依赖性方面的优势,也说明了它们在心理评估任务中的适用性。
本研究在SID和早期干预策略方面取得了重要进展,为未来自杀预防研究提供了有价值的参考。通过引入TIMs,我们不仅解决了现有方法在处理时间依赖性和输入长度限制方面的不足,还进一步验证了医疗领域专用模型在这一任务中的有效性。这些成果有助于推动心理健康领域的智能化发展,使社交媒体成为识别和干预自杀风险的重要工具。
在实验设计方面,本研究采用了多种预训练模型,包括通用模型和医疗领域专用模型,并在不同的数据集上进行了测试。我们选择了C-SSRS数据集,该数据集由Reddit用户发布的帖子组成,涵盖与心理健康相关的子版块(如r/SuicideWatch、r/depression),并采用Creative Commons Attribution 4.0 International License进行发布。所有数据均经过匿名化处理,部分示例帖子进行了改写,以确保隐私并防止潜在的滥用。此外,我们仅使用了开放的LLMs,避免了封闭模型(如GPT-4)可能存在的安全机制对内容的过滤或屏蔽。这确保了研究的客观性和有效性。
在伦理方面,本研究涉及SID这一具有重要伦理意义的领域。我们采用了公开可用的数据集,确保数据的合法性和透明度。所有数据均经过匿名化处理,以保护用户的隐私。此外,我们在分析过程中使用了改写和重新表述的方法,避免直接引用用户的原始内容,从而降低潜在的伦理风险。同时,我们强调了研究的非侵入性,即没有与社交媒体用户进行直接互动,所有分析均基于公开数据。
在写作过程中,作者使用了ChatGPT等生成式AI工具,以提升文章的语法和可读性。使用该工具后,作者对内容进行了进一步的审查和修改,并对文章内容承担全部责任。这确保了研究的严谨性和专业性,同时也体现了AI技术在科研写作中的辅助作用。
综上所述,本研究通过引入TIMs,探索了LLMs在SID任务中的应用效果,并验证了医疗领域专用模型在这一任务中的优势。这些发现不仅为心理健康领域的研究提供了新的视角,也为社交媒体平台在心理健康支持方面的应用提供了实践指导。未来的研究可以进一步优化TIMs的设计,探索其在更广泛的应用场景中的潜力,并推动AI技术在心理健康干预中的深度应用。