基于教师行为描述与机器学习(TF-IDF/RF/XGBoost/SVM/LASSO)的青少年抑郁症状预测研究

《Frontiers in Artificial Intelligence》:Predicting adolescent depressive symptoms using teacher-reported textual descriptions of abnormal behaviors: a study based on machine learning

【字体: 时间:2026年01月08日 来源:Frontiers in Artificial Intelligence 4.7

编辑推荐:

  本研究创新性地利用教师对学生的非结构化文本行为描述,结合机器学习技术(包括随机森林RF、支持向量机SVM、极端梯度提升XGBoost及最小绝对收缩与选择算子LASSO),对青少年抑郁症状进行高效预测。研究显示,基于教师报告的随机森林(RF)模型表现最优,其召回率(Recall)高达0.97,准确率(Accuracy)为0.91,精确率(Precision)达0.92,F1分数为0.92。该方法为学校场景下实现青少年抑郁的早期、无侵入性识别提供了可行路径,有助于构建“教师观察→智能分析→专业干预”的三级预警机制。

  

1 引言

抑郁障碍对青少年具有显著的负面影响。根据世界卫生组织(WHO)2024年报告,全球10-14岁青少年当前抑郁患病率为1.4%,15-19岁为3.5%。中国心理健康调查数据显示,14.8%的青少年存在抑郁症状,符合DSM-5/ICD-11诊断标准的抑郁障碍患病率在2.29%至7.4%之间。抑郁情绪不仅损害青少年的社会功能和学业发展,还显著增加成年期罹患重性抑郁障碍的风险,并与自杀风险及残疾负担密切相关。在中国,抑郁与焦虑障碍共同占青少年精神障碍所致残疾总负担的22.4%。
然而,青少年抑郁情绪的识别面临诸多困难。2021-2022年心理健康素养调查报告显示,青少年对抑郁障碍的识别率仅为12.3%。污名化是阻碍识别的重要因素,80%的受访者认为污名和歧视的影响可能比疾病本身更严重。在中国文化背景下,污名化与集体主义价值观和家庭导向的社会结构深度交织,表现为“关联性污名”,导致青少年更敏感于公众污名,常通过失眠、疲劳等躯体症状表达心理困扰,家庭支持系统则可能通过“控制性关怀”强化污名。
尽管患者健康问卷-9(PHQ-9)等工具不可或缺,但其在学校大规模应用存在局限:抑郁青少年因害怕污名可能回避或掩饰真实情况;协调大规模测试耗费教学时间和专业资源;单次评估难以捕捉症状的动态演变。
教师叙事报告则具有独特优势:生态效度高,基于课堂、走廊等真实情境的观察;早期预警潜力大,教师能注意到同伴退缩、认知节奏减慢、易怒等微变化,早于自评量表截断值;可持续性强,观察记录本就是教学日常的一部分,增量工作量小。
因此,教师报告流并非替代PHQ-9,而是位于其上游,构成阶梯式护理漏斗的第一步:持续观察发现“值得关注”的学生,算法分诊将印象转化为风险排序列表,标准化量表和临床访谈仅针对缩小的队列进行。观察引发关注,关注促成精准评估。
现有青少年抑郁评估方法(自评、知情人报告、临床访谈)存在局限:部分工具侧重躯体症状忽视情绪波动,或反之;长量表可能导致受访者疲劳,短工具可能遗漏关键症状;所有工具均依赖单时间点反应,无法捕捉症状演变;临床访谈需要训练有素的专业人员,可扩展性差。
学校是青少年社会化的主要场所。教师凭借高频度、多维度的观察视角,在心理健康监测中具有独特优势。然而,现有教师评估工具过度依赖结构化量表,阻碍了自由文本报告中语义特征的有效提取,且缺乏动态分析机制。
机器学习技术为克服这些局限提供了途径。随机森林(RF)、支持向量机(SVM)等算法已成功应用于预测青少年焦虑和抑郁,其非线性建模能力可有效解析多源异构数据。本研究创新性地引入自然语言处理技术分析教师文本报告,通过语义挖掘提取情绪、行为和社会功能方面的潜在预测因子,构建抑郁情绪的预测模型。该范式具有三大优势:减少对标准化量表的依赖,实现非侵入性评估;通过自动化分析提高筛查效率;利用教师观察的连续性实现动态追踪。
本研究探索一种基于教师观察的辅助工具,旨在帮助教育者对关注的学生进行抑郁风险的初步评估和优先排序。预期成果专门适用于教育环境,以解决现有评估系统的局限性,如缺乏可扩展、客观的分诊手段。此外,本研究将为构建“教师观察→智能分析→专业干预”三级干预导向的预警机制提供关键技术支撑。

2 方法

2.1 参与者

研究人群来源于中国天津市的儿童青少年心理健康促进项目,旨在调查中学生心理健康状况。数据通过便利抽样法,于2024年9月至2025年1月使用在线问卷平台收集。调查前,班主任向学生及其家长提供知情同意书。获得双方同意后,班主任填写自编教师问卷,识别有行为或情绪问题的学生。这些被选中的学生随后填写基本信息表和患者健康问卷-9(PHQ-9)。
共收集606份有效问卷。经进一步筛选,最终样本包括441份教师完成的问卷及其对应的441份学生自评问卷。所有教师问卷由178名教师完成。学生中,男性183人(41.5%),女性258人(58.5%)。学生年龄范围12至18岁,平均年龄15.3岁。

2.1.1 样本量计算

为确保研究结果的可靠性和统计分析的有效性,本研究基于预测模型的预期性能计算样本量。假设预期模型准确率为80%,最大允许误差为5%,置信水平95%(对应Z值为1.96),使用公式 n = Z2 × p × (1-p) / E2 计算最小所需样本量。代入参数后,确定最小样本量为246。本研究实际收集样本量为441,远超计算最小值,确保了足够的统计效力。

2.2 研究工具

2.2.1 教师问卷:自编教师报告表

教师报告问卷收集以下信息:教师详情(姓名、联系方式);学生人口统计学信息(姓名、年级、班级、性别、年龄);半开放式问题,评估学生行为和心理问题:“请描述您观察到的该生在情绪状态、人际关系、学业表现、家庭状况或身体健康方面的任何异常情况。”、问题持续时间、问题影响的严重程度。
教师受邀提交关于他们感知到存在显著困难学生的报告。具体而言,他们被指示根据对学生整体幸福感的专业判断,选择最多5名当前最令其担忧的学生。每份报告需教师回应上述半开放式问题。该数据收集策略产生了一个专注于教师识别的风险学生的丰富文本数据语料库,用于后续特征提取和模型训练。

2.2.2 学生问卷

2.2.2.1 基本人口学信息表
学生自报人口统计学详情,包括:姓名、性别、出生日期、年级、班级 designation。
2.2.2.2 患者健康问卷-9(PHQ-9)
PHQ-9是一个包含9个条目的自评抑郁筛查工具,每个条目对应DSM-IV中重性抑郁障碍的一个诊断标准。回答按4点李克特量表(0-3)计分,总分范围0-27。中文版PHQ-9在青少年群体中的Cronbach‘s α系数为0.85,表明良好的内部一致性。本研究选择10分作为截断值,基于该值能最大化敏感性和特异性的发现。本研究目的,0-9分归类为“无抑郁症状”(阴性案例,编码为0),10-27分归类为“存在抑郁症状”(阳性案例,编码为1)。

2.3 数据分析

2.3.1 数据预处理

预处理阶段涉及基本数据清洗和特征提取。数据清洗包括去除标点符号、特殊字符和停用词。鉴于数据集中存在显著的类别不平衡(316例阴性案例 vs. 125例阳性案例),我们对少数类应用过采样技术以防止模型偏差并改进风险个体的检测。使用词频-逆文档频率(TF-IDF)方法进行特征提取,将文本数据转换为适合机器学习模型的数值表示。

2.3.2 模型选择

本研究选择了四种机器学习模型:1. 随机森林(RF),2. 支持向量机(SVM),3. 极端梯度提升(XGBoost),4. 最小绝对收缩与选择算子(LASSO)。这些模型的核心特征和优化策略总结于表1。
模型选择理由:
• 高维文本数据:RF、SVM和XGBoost在处理高维特征空间方面特别有效,这在文本分析中很常见。
• 心理健康预测中的非线性关系:SVM利用核技巧捕捉复杂的非线性模式,而XGBoost采用梯度提升来建模数据中的复杂关系。LASSO因其特征选择能力被纳入,有助于在高维场景中缓解过拟合。

2.3.3 模型训练与验证

数据分割:数据集被划分为80%的训练集和20%的测试集。为确保模型稳定性和泛化能力,额外采用5折交叉验证进行稳健的性能评估。

2.3.4 模型评估

采用以下指标:召回率(敏感性/真阳性率)Recall = TP / (TP + FN);准确率 Accuracy = (TP + TN) / (TP + FP + TN + FN);精确率 Precision = TP / (TP + FP);F1分数 F1 Score = 2 × (Precision × Recall) / (Precision + Recall);受试者工作特征曲线(ROC曲线)及曲线下面积(AUC)。

2.3.5 特征重要性评估

为增强机器学习模型的可解释性并识别与抑郁症状相关的关键文本特征,我们采用了SHapley加性解释(SHAP)分析。SHAP是一种博弈论方法,为每个预测中的每个特征分配一个重要性值,提供了跨模型的统一特征影响度量。该方法应用于所有四个模型(RF、SVM、XGBoost、LASSO)。具体而言,对于每个模型,我们计算了TF-IDF向量化得到的所有特征的平均绝对SHAP值。按平均SHAP值对特征进行排序以确定全局重要性。此外,我们分析了SHAP摘要图以可视化特征影响的方向(例如,像“unhappy”这样的词出现频率高是增加还是降低抑郁风险)。使用Python中的SHAP库实现分析。

3 结果

3.1 教师报告

共441份教师报告由178名教师完成,每位教师提交报告数最少1份,最多5份。对文本报告,我们选择词频最高的前1000个词进行词频统计,如图1所示。词频分析显示,教师报告中的高频词主要集中在三个核心维度:情绪状态(如“情绪低落”、“不开心”)、社会行为(如“不愿交流”、“独自一人”)、学业表现(如“注意力不集中”、“成绩下降”)。这种分布模式表明教师的观察视角自然覆盖了青少年抑郁症状常见的外在表现领域,为使用其文本描述进行抑郁预测提供了初步效度证据。这些高频词构成了后续机器学习模型特征提取的基础。

3.2 青少年抑郁识别率

本研究以学生完成的PHQ-9结果作为青少年是否存在抑郁症状的指标。如表2所示,PHQ-9筛查显示,大多数青少年参与者(n = 316, 71.7%)表现出临床显著的抑郁症状(得分≥10,归类为1)。本研究目的,将存在抑郁症状的数据正确识别为有抑郁症状(归类为1)被视为模型正确识别青少年抑郁的能力。因此,在报告召回率时,本研究仅报告分类1的召回率。本研究中四种模型的召回率(分类1的召回率)如图2所示。教师报告文本对青少年抑郁症状的检测率最高达到97%。具体而言,在有抑郁症状的样本中,97%的有症状者被正确识别为“有抑郁症状”。

3.3 模型性能比较

除召回率外,还评估了四种模型的准确率、精确率和F1分数。由于数据集中类别分布不平衡,采用加权平均指标进行评估(表3)。表中数据表明,RF模型在所有指标上均取得最佳性能,其次是XGBoost和SVM,而Lasso模型表现相对较差。
RF模型准确率达0.91,精确率0.92,召回率(针对分类1)0.97,F1分数0.92。这些结果凸显了其在预测青少年抑郁症状方面的高可靠性和有效性。尤其高的召回率至关重要,因为它确保识别出大多数有抑郁症状的青少年,这对早期干预和治疗具有重要意义。
SVM模型准确率0.83,精确率0.85,F1分数0.83。尽管其召回率接近RF,但整体性能稍弱。这可能源于SVM在处理不平衡类别数据方面的局限性,特别是在高维文本数据中,核函数选择和参数调优对性能影响很大。
XGBoost模型准确率0.84,精确率0.85,F1分数0.84。虽然XGBoost在捕捉非线性关系和处理高维数据方面表现出色,但其召回率略低于RF和SVM。这表明在识别有抑郁症状的青少年时,存在漏检真实阳性案例的潜在风险。
Lasso模型表现最差,准确率、精确率和F1分数均为0.66。作为线性模型,Lasso处理非线性关系的能力有限,且对特征相关性高度敏感。此外,其性能缺陷可能因数据集内的类别不平衡而加剧。
为更直观展示模型性能,绘制了各模型的混淆矩阵和ROC曲线。RF模型的混淆矩阵显示,在识别有抑郁症状的青少年中,真阳性与假阴性的比率很高,表明其漏检率极低。SVM和XGBoost模型的混淆矩阵也显示出较高的真阳性比例,但其假阴性比率略高于RF,表明在识别有症状青少年时存在潜在漏检风险。相比之下,Lasso模型的假阴性比例明显更高,表明对抑郁症状的漏检严重,这可能是其低召回率的原因。
ROC曲线通过绘制不同阈值下的真阳性率对假阳性率来说明分类性能。AUC值越高表明分类性能越好。RF获得了最高的AUC值,证实了其在区分有无抑郁症状青少年方面具有最优的判别能力。XGBoost和SVM也获得了较高的AUC值,但略低于RF。Lasso模型的AUC值最低,反映了其有限的分类效能。
总之,RF模型在识别青少年抑郁症状方面表现出最佳性能,其高召回率和F1分数使其成为本研究中最稳健的模型。然而,各模型仍存在局限性:Lasso处理非线性关系的能力不足;与RF相比,XGBoost和SVM在类别不平衡数据中的性能稍逊。

3.4 特征重要性分析

为阐明模型的预测基础并识别教师使用的关键行为和心理线索,我们使用SHAP进行了特征重要性分析。各模型按平均绝对SHAP值排序的前5个预测特征(词语)总结于表5。
如表5所示,最优的RF模型突出了与外化行为和近期变化相关的术语,如“多动”、“不喜欢”、“最近”。XGBoost模型将最高重要性赋予描述人际动态的词语,包括“关系”、“情绪”、“同学”。SVM模型的顶级特征是行为(“不喜欢”、“活跃”)和学业/人际术语(“上课”、“关系”)的混合。相比之下,线性LASSO模型则强调更抽象或情境性的概念,如“压力”、“最近”、“家庭”。
值得注意的是,“不喜欢”一词在三个模型(RF、XGB、SVM)中 consistently 出现在顶级特征中,表明其在教师观察报告中与抑郁症状存在稳健关联。

4 讨论

本研究开发的教师报告分析流程旨在补充而非竞争PHQ-9。随机森林模型97%的召回率表明,教育工作者的日常观察能可靠地捕捉到抑郁相关行为,提供PHQ-9无法提供的实时、情境嵌入的检测。在日常学校实践中,最优的筛查架构应是分层的:教师的日常记录作为第一道关口(本方法),标记出需要关注的学生;PHQ-9等标准化工具作为第二道关口,为这些预选学生细化风险估计;临床访谈构成最终关口的正式诊断。这种分工最大化效率和准确性。
特征重要性分析解读了教师报告中驱动模型预测的关键行为线索。像“不喜欢”和“多动”这样的术语突出表明,教师有效地捕捉了青少年抑郁的非典型表现,如易怒和快感缺乏,从而肯定了其观察的生态效度。
此外,“关系”、“冲突”等人际词语的高度重要性强调了社会功能的核心作用,而LASSO模型对“压力”和“家庭”的关注则凸显了学业和家庭压力源的感知影响,这在中国情境下尤为突出。
“不喜欢”在多个模型中 consistently 显著尤其值得注意,表明学生表达出的厌恶感是一个高度可靠的指标。这一关键语义线索可在未来的教师培训中优先考虑,以加强早期检测工作。
这种方法的必要性基于学校的运作现实。普遍实施PHQ-9通常不切实际:它占用课堂时间,可能污名化未参与者,并且需要稀缺的心理健康工作人员进行评分和解释。相比之下,教师报告分析依附于已嵌入教学常规的工作——教育者只需记录他们持续的观察,系统便会自动呈现高风险学生。这样,专业资源仅被用于最需要的地方,而不会给教职工或学生增加额外负担。
先前的基于文本的抑郁检测模型通常利用电子健康记录、社交媒体文本或语音转录。广泛使用的传统机器学习模型包括逻辑回归(LR)、决策树(DT)、朴素贝叶斯(NB)、SVM和RF。常见的评估指标包括准确率、AUC值和F1分数,准确率和F1分数通常超过80%,AUC值达到0.9或更高。
本研究97%的检测率表明,教师叙事报告中嵌入的丰富行为线索能有效揭示抑郁症状。关键的是,这种自然观察方法规避了自评量表中固有的社会期望偏差——这对于倾向于否认或掩饰痛苦的青少年来说是一个特殊优势。在441份教师提交的材料中,教育者记录了同伴互动、学业投入和情绪表达等多维度的行为变化。这些日常功能变化构成了抑郁的现实世界表现,补充了PHQ-9捕捉的主观体验,为早期识别和支持提供了更全面、生态效度更高的图景。

5 局限性

本研究存在若干局限性,这些局限界定了我们当前发现的范围,并指出了有价值的未来方向。
首先,抽样策略固有地影响模型的普适性。参与者由教师根据其对需要关注的学生的感知进行选择,导致样本中抑郁症状患病率较高。虽然这限制了模型在整个学生群体中普遍筛查的适用性,但它准确反映了该工具的预期使用场景:作为教师在其已识别的关注学生群体内进行分诊和风险评估的辅助工具。因此,结果验证了模型在此特定、实用定义的 context 内的有效性。
其次,依赖单一数据源(教师报告)呈现了不完整的画面。教师无法观察学生在家或社区的行为,其报告可能包含主观偏见。未来研究应旨在整合多源数据,如家长报告、学生自评(在可行的情况下)以及匿名的学校行为记录(如出勤率、参与度),以构建更全面、稳健的评估档案。
第三,尽管我们进行了特征重要性分析,但可以采取进一步措施增强模型可解释性。未来可采用如SHAP(SHapley Additive exPlanations)等技术来阐明复杂的特征交互并提供个体层面的解释,使模型的输出对学校人员更具可操作性。
最后,当前模型是静态的。青少年心理健康是动态的,症状随时间演变。逻辑上的下一步是利用时间序列数据开发纵向模型。这将能够追踪行为轨迹,从横断面风险识别转向真正的动态预测和预警,从而实现更及时的干预。

6 结论

本研究证明,机器学习模型,特别是随机森林(RF),可以通过分析教师对学生行为的自然文本描述,有效识别有抑郁症状风险的青少年。达到的高召回率强调,教师日常观察中嵌入的丰富行为线索构成了初步风险评估的高度敏感指标。
本研究的主要意义在于其对学校心理健康实践的实用贡献。它提供了一种可行且可持续的方法论,将主观的教师观察转化为客观的、数据驱动的辅助工具。该方法并非旨在取代标准化量表,而是通过实现高效分诊来优化筛查流程。它使学校专业人员能够将其专业知识和资源集中于最需要的学生,从而在自然学校环境中促进早期识别。
展望未来,教师报告数据与先进分析技术的整合代表了迈向构建动态、多模态预警系统的有希望的一步。未来的努力应指向在更多样化的人群中验证此方法,纳入纵向数据以捕捉症状演变,并最终将其与其他数据源整合以提供对学生幸福感的更全面理解。通过持续弥合教育实践与心理健康专业知识之间的差距,此类工具有可能对青少年抑郁的预防和早期干预产生显著影响。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号