基于DASS-42问卷和机器学习算法的抑郁症、焦虑症和压力预测模型研究
《Scientific Reports》:Artificial intelligence for predicting depression anxiety and stress using psychometric data
【字体:
大
中
小
】
时间:2025年10月25日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对心理健康筛查中存在的诊断效率低、主观性强等问题,开发了一种基于DASS-42问卷的机器学习预测框架。研究人员采用支持向量机(SVM)、随机森林(RF)等五种算法,对39,775份匿名问卷数据进行分析。结果显示SVM模型预测准确率最高(抑郁症99.3%,焦虑症98.9%,压力98.8%),证实了AI技术在心理健康早期筛查中的应用潜力,为临床辅助诊断提供了新思路。
在全球范围内,心理健康问题正成为日益严重的公共卫生挑战。世界卫生组织数据显示,全球有12.5%的人口受到心理健康问题的困扰,而抑郁症预计到2030年将成为全球疾病负担的首要原因。然而,传统心理健康诊断面临诸多困境:社会偏见导致患者不愿就医,专业医疗资源分布不均,临床诊断主观性强,且不同心理疾病症状存在重叠,使得准确诊断变得困难。
面对这些挑战,来自埃及技术研究中心、英国格拉斯哥大学等机构的研究团队在《Scientific Reports》上发表了一项创新研究。他们探索利用人工智能技术,通过标准化的心理测量工具——抑郁-焦虑-压力量表42项(DASS-42)问卷,来预测三种常见心理健康问题:抑郁症、焦虑症和压力。
研究团队收集了来自Kaggle平台的39,775份匿名问卷数据,这些数据包含2017-2019年间参与者对DASS-42问卷的回答及人口统计学信息。DASS-42作为经过临床验证的心理评估工具,包含42个条目,采用4点李克特量表评分,分别评估抑郁、焦虑和压力三个维度的严重程度,并根据总分将严重程度划分为正常、轻度、中度、重度和极重度五个等级。
研究方法方面,研究团队构建了完整的数据处理和分析流程。数据预处理阶段处理了缺失值,标准化了分类变量,并进行了有效性检查。研究采用五种机器学习算法进行比较:决策树(DT)、随机森林(RF)、k-近邻(KNN)、朴素贝叶斯(NB)和支持向量机(SVM)。为确保模型评估的可靠性,研究采用70/30分层训练测试分割和五折交叉验证方法,使用准确率、精确率、召回率和F1分数等多项指标进行全面评估。
研究样本包含30,366名男性、8,788名女性和619名其他性别参与者。婚姻状况分布为:28,601人未婚,4,265人已婚,1,185人曾婚。教育背景涵盖高中(15,634人)至研究生学历(4,066人)。数据分析显示,大多数参与者处于极重度心理困扰状态,轻度状况人数最少,这反映了研究样本中存在显著的心理健康需求。
混淆矩阵分析显示,SVM模型在三种心理状况预测中均表现最优:抑郁症97.1%、焦虑症98.3%、压力97.5%。其优势在于能够有效找到最佳决策边界,即使在复杂数据集上也能实现准确分类。随机森林表现次之,准确率分别为抑郁症96.5%、焦虑症92.7%、压力94.8%。KNN模型表现中等,而决策树和朴素贝叶斯模型分别因过拟合和特征独立性假设不成立而性能较差。
详细评估进一步证实了SVM的优越性,其在抑郁症、焦虑症和压力预测中的准确率分别达到99.3%、98.9%和98.8%,F1分数、精确率和召回率均保持类似高水平。随机森林作为竞争性替代方案,相应准确率为92.8%、85.2%和88.8%。而决策树模型表现最低,准确率仅为79.3%、73.7%和74.7%。
通过泛化差距分析,研究发现SVM模型在三种心理状况预测中的训练与测试准确率差异均小于0.1阈值(抑郁症0.002、焦虑症0.002、压力0.003),表明模型具有良好的泛化能力,未出现过拟合现象。
学习曲线显示,SVM模型在训练过程中,训练分数和交叉验证分数之间的差距随着数据量增加而减小,且在12,500个训练样本后性能趋于稳定,进一步证实了模型的稳健性和良好泛化能力。
与先前研究相比,本研究的SVM模型在DASS-42问卷预测方面表现出显著优势。相较于Srinath等人研究(焦虑症最高97.49%)和Singh等人研究(压力预测91%),本研究模型准确率提高了1.4-2.0个百分点,压力预测准确率提升近8%。这归因于先进的数据预处理技术、优化的特征选择和精细的超参数调优。
研究结论表明,支持向量机在基于DASS-42问卷的心理健康预测中表现最优,为心理健康筛查提供了高效、准确的技术方案。这种基于机器学习的方法有望解决传统心理健康服务中的可及性问题,特别适用于资源有限环境或为羞于寻求帮助的个体提供匿名评估。
然而,研究也存在一定局限性。自报告问卷数据可能存在主观偏差,人口统计学特征的偏斜可能影响模型泛化能力,且开放文本字段的预处理可能引入标准化误差。未来研究可探索深度学习模型或多模态数据融合,并通过临床环境验证进一步强化其实用性。
该研究的实际意义在于,AI模型可作为临床决策支持工具,实现快速分诊、早期检测和持续监测。集成到远程医疗平台或移动应用程序中,可使患者远程完成评估并即时获得风险分层,从而优化医疗资源配置,提高心理健康服务效率。但在实际应用前,仍需进行严格的临床验证测试,确保其可靠性、安全性和符合伦理规范的应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号