SM-HK:一种具备情感感知能力的模型,融合异构知识以检测社交媒体中的抑郁风险
《Expert Systems with Applications》:SM-HK: Sentiment-aware Model Fusing Heterogeneous Knowledge for Depression Risk Detection on Social Media
【字体:
大
中
小
】
时间:2025年11月08日
来源:Expert Systems with Applications 7.5
编辑推荐:
本研究重新定义抑郁症检测为风险预测任务,构建动态数据集DR2D,提出融合情感知识、抑郁症领域知识及用户历史动态的多级知识融合模型SM-HK,通过辅助任务检测用户负面情感严重性,实验验证模型在风险预测上达到最优性能。
随着社交媒体的迅猛发展,海量的用户发帖数据为识别抑郁用户提供了新的希望。然而,目前用于抑郁症检测的数据主要来源于那些长期患病的用户,他们的表达中充满了显著的负面情绪。这种数据的局限性使得在早期筛查中难以准确识别普通用户的抑郁倾向,同时也无法满足现实生活的实际需求。此外,现有的方法大多集中在对发帖文本的语义信息建模上,忽略了诸如情绪知识、抑郁症领域知识以及负面情绪严重程度等关键信息。这使得模型在理解隐含的抑郁语义时面临挑战,因为许多具有抑郁倾向的用户往往以隐含的方式表达负面情绪和抑郁症状。为了弥补这一不足,我们提出了一个融合异构知识的、以情绪感知为核心的模型,用于抑郁症风险预测。
在本研究中,我们重新定义了抑郁症检测任务,将其视为抑郁症风险检测,并构建了一个新的相关数据集。我们还提出了一个融合异构知识的、以情绪感知为核心的模型,用于抑郁症风险预测。该模型通过多级知识融合策略,充分且有效地将情绪知识与抑郁症领域知识相结合,深入挖掘抑郁用户的隐含表示。此外,我们还设计了一个辅助任务,用于准确感知用户整体的负面情绪严重程度。实验结果表明,该模型在新构建的数据集上取得了最先进的性能。
抑郁症,也被称为抑郁障碍,是一种常见的心理疾病。根据世界卫生组织的一份报告,目前全球有超过3.5亿人患有抑郁症(Organization & et al, 2017)。令人遗憾的是,全球仅有不到一半的抑郁症患者接受了必要的治疗(Olfson, Blanco, Marcus, 2016, Saxena, Thornicroft, Knapp, Whiteford, 2007)。此外,抑郁症患者常常由于缺乏对自身病情的认识或内心的冲突,采取观望的态度去寻求专业帮助,这导致错过最佳的干预和治疗时机(Edwards, Tinning, Brown, Boardman, & Weinman, 2007)。近年来,随着深度学习方法的不断发展,它们在社交媒体抑郁症检测中的应用也日益广泛,如卷积神经网络(CNN)、循环神经网络(RNN)和预训练模型(PLMs)。然而,这些方法在实际应用中仍面临一些挑战。
首先,抑郁症的早期筛查至关重要,因为早期干预有助于疾病的治疗和患者的康复。然而,现有的抑郁症检测方法往往将检测视为一个二分类任务,即判断用户是否抑郁。这种方法忽略了抑郁症的复杂性,导致模型难以准确识别早期抑郁的迹象。根据文献(Zhang, Yang, & Ananiadou, 2023b),大多数数据集中的抑郁症患者已经发展为中度或重度抑郁,他们的文本数据中充满了与抑郁症明显相关的负面表达。因此,这些数据难以用于检测普通用户的抑郁倾向,同时也无法满足现实生活的实际需求。
其次,大多数基于用户社交媒体数据的抑郁症检测方法主要关注发帖文本的语义信息建模,而忽略了情绪知识、抑郁症领域知识等重要外部信息。事实上,许多具有抑郁倾向的用户往往以隐含的方式表达负面情绪和抑郁症状,这使得模型难以准确理解这些隐含的语义。然而,丰富的外部知识可以为模型提供关键的补充信息,从而帮助模型更准确地理解用户的深层含义。此外,分析用户整体的主观情绪发展和相关症状对于检测用户的抑郁症风险具有重要意义。根据国际疾病分类第11次修订版(ICD-11)(Harrison, Weber, Jakob, & Chute, 2021),抑郁症被定义为抑郁情绪伴随认知、行为或神经体液症状,这些症状对个体的功能能力有显著影响。因此,情绪知识和抑郁症领域知识在这一过程中至关重要。
第三,虽然Zhang等人(2023b)意识到了情绪信息的重要性,但他们忽略了负面情绪的严重程度,这也是识别具有抑郁倾向用户的重要因素。事实上,抑郁症患者往往从轻度负面情绪逐渐发展为中度或重度,或者一直保持在中度或重度水平。相比之下,普通用户可能会偶尔出现负面情绪,这是一种正常的心理波动。例如,如表1所示,抑郁用户1从最初的充满期待逐渐转变为痛苦,而抑郁用户2则整体保持强烈的负面情绪。对于普通用户3,他偶尔会感到轻微的负面情绪。因此,准确识别负面情绪的严重程度对于判断用户的抑郁风险至关重要。
为了应对上述挑战,本文首先将抑郁症检测重新定义为抑郁症风险检测任务,并构建了一个社交媒体上的抑郁症风险检测数据集(DR2D),以结合用户的历史发帖,评估其抑郁症风险水平(C1)。在此过程中,我们按照时间顺序重新排列了用户的发帖,并保留了所有在首次识别用户为抑郁症患者之前发布的帖子。然后,我们对所有用户进行抑郁症风险评估,并对他们的帖子进行标注。其次,我们提出了一种融合异构知识的、以情绪感知为核心的模型(SM-HK),用于抑郁症风险检测。具体来说,我们通过多级知识融合策略,充分且有效地利用情绪知识和抑郁症领域知识(C2)。在发帖级别,我们提出了一种情绪增强的领域微调方法。该方法通过结合情绪知识图谱,构建一个包含负面情绪知识的领域语料库,并生成负面情绪辅助句子。随后,通过使用这一语料库对预训练模型进行领域微调,我们获得了情绪增强的预训练模型,从而捕捉到融合了负面情绪知识的发帖表示。在用户级别,我们提出了一种异构知识融合方法,该方法基于抑郁症状和大型语言模型(LLM)增强的知识,通过利用发帖之间的时序关系、语义相似性以及与描述匹配的相关症状,构建一个发帖-症状异构图谱。此外,我们还设计了一个辅助任务,称为用户负面情绪严重程度检测(UNSSD),该任务与主要任务密切相关。它通过分析用户的历史发帖中的负面情绪趋势,检测用户的当前整体负面情绪严重程度。借助这一任务,模型能够有效感知用户整体的负面情绪严重程度(C3)。
本文构建的数据集和提出的模型已经得到了小组内医疗专家的审批和审阅。本文的主要贡献如下:第一,我们重新定义了抑郁症检测任务,将其视为抑郁症风险检测,并构建了一个抑郁症风险检测数据集,用于评估用户的抑郁症风险水平,为未来的研究开辟了新的方向。第二,我们提出了一种融合异构知识的、以情绪感知为核心的模型,用于抑郁症风险检测,从而充分且有效地利用情绪知识和抑郁症领域知识。第三,我们设计了一个辅助任务,用于检测用户的负面情绪严重程度,使模型能够有效感知用户的负面情绪严重程度。第四,实验结果表明,SM-HK在新构建的数据集上取得了最先进的性能,并能够有效评估用户的抑郁症风险。
为了评估SM-HK在抑郁症风险检测中的性能,我们在新构建的DR2D数据集上进行了实验。表2展示了这些数据集的统计信息。此外,我们使用了两个指标,准确率和宏F1值,作为评估SM-HK和其他基线模型性能的指标。对于发帖文本,我们使用了bert-chinese和bert-base-uncased作为预训练语言模型。对于DR2D-CN,Tl和Td分别为0.36和0.86,而Tl和Td分别为-0.25和-0.55。对于DR2D-EN,Tl和Td分别为0.36和0.86,而Tl和Td分别为-0.25和-0.55。这些数值反映了数据集的某些特征,如用户数量、发帖数量等,有助于进一步分析模型的表现。
此外,本文还探讨了抑郁症检测任务的定义。给定一个包含n个发帖的用户发帖集合P={p1, p2, ..., pn},其中每个发帖的长度为m,发帖内容为w1, w2, ..., wm。抑郁症风险检测的目标是基于用户的发帖集合P,检测用户的风险水平R={low, medium, high}。这一任务的定义为模型的开发和评估提供了明确的方向。
在数据集构建方面,我们发现现有抑郁症检测数据集中,大多数抑郁症患者已经发展为中度或重度抑郁。他们的文本数据中充满了与抑郁症明显相关的负面表达,因此难以用于检测普通用户的抑郁倾向。为了弥补这一不足,我们构建了一个新的数据集DR2D,该数据集包含了用户的发帖历史,并通过重新排列发帖顺序,保留了所有在首次识别用户为抑郁症患者之前的发帖。随后,我们对所有用户进行了抑郁症风险评估,并对他们的发帖进行了标注。这一数据集的构建为模型的训练和测试提供了高质量的数据支持。
在模型设计方面,我们提出了一种融合异构知识的、以情绪感知为核心的模型SM-HK。该模型通过多级知识融合策略,充分且有效地将情绪知识和抑郁症领域知识相结合。在发帖级别,我们通过结合情绪知识图谱,构建了一个包含负面情绪知识的领域语料库,并生成了负面情绪辅助句子。随后,通过使用这一语料库对预训练模型进行领域微调,我们获得了情绪增强的预训练模型,从而捕捉到融合了负面情绪知识的发帖表示。在用户级别,我们提出了一种异构知识融合方法,该方法基于抑郁症状和大型语言模型(LLM)增强的知识,通过利用发帖之间的时序关系、语义相似性以及与描述匹配的相关症状,构建了一个发帖-症状异构图谱。此外,我们还设计了一个辅助任务,称为用户负面情绪严重程度检测(UNSSD),该任务与主要任务密切相关。它通过分析用户的历史发帖中的负面情绪趋势,检测用户的当前整体负面情绪严重程度。借助这一任务,模型能够有效感知用户整体的负面情绪严重程度。
本文提出的模型和数据集在实际应用中具有重要意义。通过构建DR2D数据集,我们能够更全面地了解用户的抑郁症风险,从而为早期干预和治疗提供依据。此外,通过设计SM-HK模型,我们能够更准确地识别用户的负面情绪,提高抑郁症检测的准确性。这些成果不仅有助于改善抑郁症患者的诊断和治疗,也为心理健康领域的研究提供了新的思路和方法。
然而,本研究仍存在一些局限性。一方面,由于资源和团队成员的限制,我们难以进一步扩大数据集的规模。在这一点上,我们计划在未来采用先进的“大型语言模型+专家验证”模式,以生成高质量的数据。另一方面,由于数据稀缺,我们无法进一步收集和处理其他语言的社交媒体数据。此外,由于现有相关数据的稀缺和不可用,我们在模型设计和训练过程中也面临一定的挑战。为了克服这些限制,我们需要在数据收集和模型优化方面做出更多努力,以提高抑郁症风险检测的准确性和实用性。
在模型的训练和测试过程中,我们还对一些关键参数进行了设置。例如,我们使用了不同的预训练语言模型来处理中文和英文数据,这有助于提高模型在不同语言环境下的表现。此外,我们还对模型的结构进行了优化,以确保其在处理社交媒体数据时能够保持较高的准确性和效率。这些参数的设置为模型的训练和测试提供了坚实的基础。
最后,本文的结论表明,通过重新定义抑郁症检测任务,并构建一个融合异构知识的、以情绪感知为核心的模型,我们能够更有效地识别用户的抑郁症风险。该模型在新构建的数据集上取得了先进的性能,能够准确评估用户的抑郁症风险水平。这一成果不仅为抑郁症的早期筛查提供了新的方法,也为心理健康领域的研究和应用提供了重要的参考价值。我们相信,随着技术的不断发展和数据的不断丰富,未来的抑郁症风险检测方法将更加准确和高效,为改善患者的诊断和治疗提供更好的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号