基于韵律语音特征预测情感投入与认知负荷:一项跨语言机器学习研究

【字体: 时间:2025年09月20日 来源:Frontiers in Psychiatry 3.2

编辑推荐:

  本研究通过分析语音韵律特征(如基频、响度、频谱特性),利用机器学习模型(SVM、线性回归)有效预测积极情感投入(作为情绪韧性代理指标)和感知脑力负荷(作为认知负荷代理指标),为无创心理评估提供了创新工具,并揭示了德语和英语在预测性能上的显著差异,对心理健康监测和人机交互具有重要应用价值。

  

背景与目标

情绪韧性(Emotional Resilience)传统上定义为个体从逆境中恢复的能力,而认知负荷(Cognitive Load)则指信息处理所需的脑力消耗,二者均是心理健康功能的关键方面。传统的评估方法(如生理传感器和任务后问卷调查)常常干扰自然行为且无法提供实时洞察。语音韵律(Speech Prosody)——包括音高(Pitch)、强度(Intensity)、响度(Loudness)和语音活动(Voice Activity)——为评估这些心理构念提供了非侵入性替代方案。然而,语音韵律与情绪韧性及认知负荷之间的关系,尤其在会话语境中,仍待深入探索。

本研究旨在通过自我报告的情感投入、愉悦度、无聊感和认知努力,提出这些构念的代理指标,并利用欧洲情感识别研究项目开发的SEWA(Automatic Sentiment Estimation in the Wild)数据库,开发机器学习模型,以将语音模式与情感和认知状态的主观自我报告相关联。

方法学设计

数据集来自SEWA数据库,包含参与者讨论情感唤起广告的双人对话。该数据库提供了参与者在-5至5量表上对自身投入、情感唤醒和会话体验的主观评分,这些自我报告作为机器学习的地面真值标签。通过Hugging Face库对对话进行分割,获得66名英语母语者和64名德语母语者的独立语音记录,进而进行个体层面的分析。

语音特征提取采用openSMILE工具包,计算包括基频(F0)、强度、响度、梅尔频率倒谱系数(MFCCs)、时序特征和语音概率等韵律特征。所有特征均经过标准化以消除说话人间变异,并基于先前文献选择特征集以平衡可解释性并降低过拟合风险。

目标变量操作化为两个代理指标:积极情感投入(Positive Affective Engagement,作为情绪韧性的代理),由投入、愉悦和积极感受聚合而成,反映会话语境中的情感适应性;感知脑力负荷(Perceived Mental Strain,作为认知负荷的代理),由消极感受减去投入和愉悦构成,反映会话中的主观脑力紧张或不适感。尽管这些代理指标与临床定义不完全一致,但它们为在社交互动语境中捕捉瞬间心理状态提供了可行途径。

机器学习流程采用支持向量机(SVM)进行分类任务,线性回归用于连续分数预测。特征预处理包括标准化和主成分分析(PCA)降维,保留前三个主成分作为特征表示。数据按66百分位数划分为高和低类别,模型按80%-20%比例分层分割训练集和测试集,并采用自助法(Bootstrapping)进行1000次迭代以计算性能指标的95%置信区间,增强结果稳健性。鉴于语言文化差异,模型对英语和德语数据分别训练和验证。

研究结果

描述性统计显示,英语和德语参与者在积极情感投入和感知脑力负荷的自我报告分布上存在差异,可能源于文化或语言特有的报告倾向。特征分析表明,德语语音在响度和语音概率上更高,而英语在音高波动和强度变化上更动态。相关热图揭示德语特征间相关性更强,尤其是响度与过零率(ZCR)呈强负相关(r = -0.95),反映了语言特有的声学模式。

PCA分析显示,前三个主成分分别解释了英语和德语数据65.74%和72.93%的方差。英语中主导特征为响度、音高偏度、过零率和语音概率,而德语中则为频谱偏度(MFCC1和MFCC2)、音高偏度和强度动态。

机器学习结果显示,在回归任务中,德语数据在预测积极情感投入上均方误差(MSE)更低(27.146 vs 35.583),且自助置信区间更窄,表明更可靠的预测性能;感知脑力负荷的预测误差在两种语言间相近(英语26.01 vs 德语28.52)。分类任务中,SVM模型对德语的积极情感投入分类准确率更高(0.615 vs 0.428),宏F1分数也更优(0.607 vs 0.378);感知脑力负荷的分类性能在两种语言间较为平衡,但德语在召回率和F1分数上略胜。

讨论与展望

本研究表明,语音韵律特征可有效预测心理状态,但性能受语言特异性影响。德语中积极情感投入的更好预测可能源于其更高的响度和语音概率一致性,以及更紧密的声学特征关联,这与先前研究发现德语听者对音高上升更敏感的研究一致。结果强调了在跨语言应用中需考虑语言文化差异,以提升模型泛化能力。

研究存在一定局限性:样本量较小,自我报告可能引入文化偏差,且代理指标与理论构念不完全对应。未来研究应扩大样本多样性,整合生理指标验证,探索深度学习等非线性模型,并扩展至更多语言及多模态数据。此外,在临床层面,即使从中性语音中识别声学标志物,也有助于无创心理健康监测和早期干预,尤其有助于减少心理健康污名化。

结论

本研究通过韵律语音特征成功预测了积极情感投入(情绪韧性代理)和感知脑力负荷(认知负荷代理),并揭示了德语和英语在预测性能上的差异。结果凸显了声学特征在心理评估中的潜力,以及语言特异性在模型开发中的重要性。未来需通过更大数据集、先进建模技术和真实世界验证,进一步优化语音心理评估工具的多语言应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号