通过自然对话中的语音和文本,利用完全自动化的虚拟人类来检测抑郁症
《Artificial Intelligence in Medicine》:Detecting depression through speech and text from casual talks with fully automated virtual humans
【字体:
大
中
小
】
时间:2025年11月16日
来源:Artificial Intelligence in Medicine 6.2
编辑推荐:
本研究通过开发虚拟人类(VHs)系统,收集了包含101名参与者(42名有抑郁症状)的DEPTALK数据集,探索非结构化社交对话中语音和文本的多模态特征对抑郁症检测的潜力。实验表明,基于对话级聚合的语音模型(F1=0.566)和融合语音与文本的多模态模型(F1=0.648)在抑郁症检测中表现最佳,验证了语音韵律特征的主导作用,同时发现文本语义信息可增强检测效果。研究为抑郁症的客观评估提供了新范式,并展示了VHs在模拟自然社交互动中的临床应用价值。
本研究探讨了通过虚拟人类(VHs)进行开放式对话来检测抑郁症状的可能性。随着全球抑郁患病率的持续上升,传统的诊断方法存在一定的局限性,往往依赖主观观察和问卷调查,可能导致对病情的低估和治疗不足。为了改善这一状况,研究团队开发了一种全新的系统,该系统能够进行自然的、情感丰富的对话,并形成了名为DEPTALK的数据集。DEPTALK数据集包括101名参与者,其中42人表现出抑郁症状。这些参与者与模拟基本情绪的VHs进行了六次非正式的社会互动,为后续的分析提供了丰富的数据资源。
为了分析这些数据,研究团队采用了先进的预训练转换器模型,生成语音和文本的嵌入表示。随后,他们采用了两种不同的策略进行建模:一种是对话级别的聚合策略,另一种是回合级别的聚合策略。对话级别的策略通过将每个对话的嵌入表示进行合并,并使用极端梯度提升(XGBoost)算法进行分类。这种方法在所有六次对话中训练单一模型,相较于情感特定模型表现更优,取得了F1分数为0.566的语音、0.329的文本和0.648的多模态融合结果。这表明,整合不同情感的对话数据有助于捕捉更强烈的抑郁线索。
为了捕捉时间动态,研究团队进一步采用回合级别的聚合策略,使用门控循环单元(GRU)网络进行训练。这一策略在文本上提高了F1分数至0.505,并在语音上保持了竞争力,F1分数为0.541。然而,多模态GRU模型的F1分数(0.556)并未超越最佳的对话级别模型。总体而言,研究结果表明,在非正式对话中,抑郁症状主要通过语调传达,而语义语境的加入进一步提升了检测效果。
本研究在模拟的社会互动中,探索了基于语音的抑郁模式,并强调了使用VHs进行更客观的抑郁症状检测的潜力。传统的临床访谈通常具有单向性,参与者在知道被评估的情况下进行回答,这可能影响其自然表现。相比之下,非正式对话更加接近自然的社会互动,能够揭示抑郁个体在社交技能上的细微缺陷。此外,这种互动方式可以更好地适应那些不愿意直接讨论症状的个体。
研究团队还对不同模态的数据进行了分析,包括语音和文本。通过UMAP(均匀流形近似和投影)技术对数据进行可视化,发现语音嵌入能够保留个体间的差异,而文本嵌入则倾向于抽象表示。尽管语音模型在检测抑郁症状方面表现更优,但文本模型在回合级别的聚合策略下也有所提升,表明时间动态在文本分析中的重要性。然而,语音模型依然在整体性能上优于文本模型,这可能与抑郁症状主要通过语调而非语言内容表达有关。
在模型性能方面,研究发现多模态模型在整合语音和文本嵌入后,显著提升了抑郁症状检测的准确率。特别是使用w2v2-xlsr-53和roberta-xlm的多模态模型,其F1分数达到0.648,远高于单独的语音模型(0.566)和文本模型(0.329)。这一结果强调了多模态融合在检测抑郁症状中的优势,同时也突显了语音作为非侵入性、低成本且易于收集的模态的重要性。
此外,研究还发现模型在不同性别间的性能存在差异。语音模型在整体样本中表现良好,但女性的F1分数低于男性,这可能与训练数据中男性语音的占比较高有关。而文本模型的性别差异则更为显著,F1分数在男性中达到0.533,女性仅为0.472。这种性别差异提示未来的研究需要更加关注性别多样性,并采取措施减少模型中的性别偏差。
本研究的成果不仅在于检测抑郁症状的模型构建,更在于提出了一种新的研究范式。通过使用VHs进行非正式对话,研究团队为抑郁症状的识别提供了更自然和丰富的数据来源。这种方法可以有效减少人为偏差,同时提高诊断的客观性和可扩展性。此外,研究团队还计划在未来的项目中扩展DEPTALK数据集,以提高模型的泛化能力,并探索不同文化背景下抑郁症状的表达方式。
在技术实现上,研究团队采用了多种先进的技术,包括自动语音识别(ASR)、自然语言理解(NLU)和文本到语音(TTS)技术。这些技术的结合使得VHs能够模拟真实的人类对话,包括情感表达、唇部同步和语音合成。通过这些技术,VHs能够与参与者进行自然的、双向的互动,从而更有效地收集数据并揭示抑郁症状。
尽管研究取得了显著成果,但仍存在一些局限性。例如,当前的样本量相对较小,可能影响模型的泛化能力。此外,VHs的动态性和情感表达仍有提升空间,未来的研究可以进一步优化这些方面,以增强系统的现实感和互动性。同时,研究团队还计划开发基于虚拟现实(VR)的版本,以提高系统的可携带性和在临床环境中的应用潜力。
总的来说,本研究为抑郁症的客观检测提供了一种新的方法,并展示了AI驱动的虚拟人类在模拟社会互动中的潜力。通过整合语音和文本数据,研究团队构建了更有效的检测模型,为未来的临床应用和研究提供了重要的参考。同时,研究也指出了在性别公平和数据多样性方面需要进一步努力,以确保模型的公正性和广泛适用性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号