利用数字表型技术对社区居住的老年人进行抑郁症筛查：贝叶斯多层次障碍模型机器学习方法

《JMIR AI》：Using Digital Phenotyping for Depression Screening in Community-Dwelling Older Adults: Bayesian Multilevel Hurdle Model Machine Learning Approach

【字体：大中小】 时间：2026年05月18日 来源：JMIR AI 2

编辑推荐：

　　钟茂权 | 林孝相 | 李相宇 | 白孝硕 | 李真熙 | 李庆正 | 申泰秀 | 金民赫 | 黄相元 | 厄尔登巴亚尔·乌尔特纳桑 | 朴智英 | 权丹熙 | 李真京延世大学未来校区全球公共管理系韩国原州 **背景** 随着人口老龄化速度的加快，老年人的心

　　钟茂权 | 林孝相 | 李相宇 | 白孝硕 | 李真熙 | 李庆正 | 申泰秀 | 金民赫 | 黄相元 | 厄尔登巴亚尔·乌尔特纳桑 | 朴智英 | 权丹熙 | 李真京
延世大学未来校区全球公共管理系
韩国原州

**背景**
随着人口老龄化速度的加快，老年人的心理健康问题日益受到关注。尽管晚年出现抑郁症状的可能性较高，但由于人们对心理健康问题的偏见，老年人更不愿意就诊，导致许多患者未能得到诊断和治疗。数字表型分析作为一种有前景的方法，有助于缓解这一问题。通过可穿戴设备进行纵向监测可以及时发现老年人的抑郁症状。然而，目前尚缺乏足够的研究来开发能够同时考虑个体间和个体内差异的机器学习方法。

**目的**
本研究旨在探讨通过可穿戴设备收集的主动和被动数字表型数据在监测抑郁症状发生概率和严重程度方面的实用性。具体而言，我们在机器学习框架内应用了多层障碍模型，以实现对普通人群（尤其是社区居住的老年人）的有效抑郁筛查。

**方法**
我们分析了147名老年人2年内报告的1011个案例。参与者被要求在每月的最后一周通过我们的移动应用程序完成9项患者健康问卷（PHQ-9）的填写。除了每年一次的面对面数据收集外，我们还通过智能手机和智能手表收集了参与者的主动和被动感知数据。为了降低44个特征的数据维度，我们使用了并行分析和主成分分析。基于提取的6个主成分（PCs），我们构建了一个贝叶斯多层障碍模型。

**结果**
在构建主成分时，主动数据中的每周压力评分和被动数据中的睡眠相关特征是贡献最大的前5个特征。在6个主成分中，低心理困扰和高社会支持的主成分与社区居住老年人的抑郁症状显著相关。该贝叶斯多层障碍模型在筛查抑郁症状的严重程度（R2=0.53）以及区分有症状和无症状人群方面表现良好（接收者操作特征曲线下面积=0.88，F1分数=0.75）。个体间方差大于个体内方差，尤其是在解释抑郁症状的概率方面。

**结论**
在心理健康筛查中，主动和被动数字表型数据可以与传统的临床筛查工具结合使用，以监测社区居住老年人的抑郁症状。通过并行分析和主成分分析进行的数据降维有助于识别潜在的风险特征。鉴于数据的嵌套结构和抑郁症状的异质性，在机器学习框架内使用贝叶斯多层障碍模型可能有助于抑郁筛查。总体而言，即使考虑到较大的个体间方差，数字表型分析仍是一种有用的个性化健康追踪工具。我们建议未来的研究解决数据不平衡问题，以进一步加强这种方法。

**引言**
抑郁症是一种普遍存在的心理健康障碍，全球约有5%的人口受到影响[1]。如果不及时治疗，抑郁症可能导致自杀念头[1]。尽管其发病率很高，但许多有抑郁症状的人既没有意识到自己需要医疗干预，也没有得到适当的医疗护理[2,3]。在这一群体中，老年人尤为脆弱。在发展阶段，晚年是出现抑郁症状的可能性较高的时期[4]。然而，这一群体往往对看精神科医生存在强烈的抵触情绪[5,6]。因此，许多有抑郁症状的老年人可能未被诊断和治疗，从而增加他们的死亡率和其他健康问题[7]。

与许多通过生理生物标志物客观筛查的身体健康问题不同，许多心理健康问题（如抑郁症）仅基于患者的主观症状描述进行诊断[8,9]。除非患者愿意接受治疗，否则在疾病初期很难检测到抑郁症状并制定适当的治疗方案。数字表型分析的最新进展因其能够远程监测和筛查抑郁症状的早期迹象而受到全球越来越多的关注[9]。数字表型分析的最大优势之一是能够减少回忆偏差，这是传统筛查方法中的一个普遍问题。传统抑郁筛查工具受回忆偏差的限制，因为它们仅依赖于回顾性调查。通过使用智能设备，数字表型分析可以收集关于参与者情绪、活动、睡眠和其他行为的实时数据[10]。借助数字表型分析，可以实时监测抑郁症状并迅速识别出有症状的个体[8]。由于数字表型分析能够在自然环境中实现实时监测，智能手机技术的进步激发了精神病学领域对此领域的学术兴趣[8]。通过将数字表型分析应用于实时监测，可以及时帮助需要帮助的人。

**数字表型分析的数据类型**
数字表型分析主要分为两类数据：主动数据和被动感知数据[8]。主动数据包括通过智能手机应用程序收集的自我报告调查结果，而被动感知数据包括传感器无意中收集的实时数据（例如，通过智能可穿戴设备收集的步数或睡眠日志数据[9]。主动数据有助于了解人们对情绪、压力和生活经历的主观感受；然而，这种方法的缺点是需要大量的人力来回答筛查问卷。另一方面，被动感知数据可以实时监测状态[10]，且用户输入较少，这在精神病学研究中尤其受到关注[11]。然而，收集被动感知数据通常需要额外的昂贵设备（如智能手表）。尽管有大量的理论框架，但使用主动和被动数字表型特征构建机器学习模型的实证研究相对较少。这可能是因为从大规模样本中收集数字表型特征需要大量资金和资源。虽然智能手机很普及，但仅通过智能手机可以收集的特征有限，可能导致样本量较小。将数字表型分析应用于实际场景时可能产生的潜在成本负担会大大降低其在监测抑郁症状方面的效果，尤其是在社会经济条件较差或医疗资源有限的社区中。本研究采用贝叶斯机器学习方法，探索如何利用智能手机和智能手表收集的数字表型特征来筛查社区居住老年人的抑郁症状。通过这种方式，我们希望克服样本量较小的挑战，充分利用主动和被动数字表型特征。

**方法论考虑**
在实时监测中积累的数据结构是一个重要的方法论问题。鉴于数据的嵌套纵向结构，收集的特征至少应在两个层面上进行区分：随时间变化的协变量和不变的协变量。尽管随着人工智能的兴起，学术界对机器学习算法的兴趣迅速增加，但许多机器学习研究仍基于横断面设计。目前尚未充分考虑如何处理不同时点收集的纵向数据。为适当处理嵌套数据，本研究将结合机器学习方法和包含个体内和个体间层次的两层贝叶斯多层模型。

**多层障碍模型**
基于数字表型数据，本研究使用了障碍模型。数字表型分析便于从普通人群中收集数据以筛查抑郁症状。在纵向筛查普通人群的抑郁症状时，常常会发现多种抑郁症状的发展轨迹。尽管关于存在多少种轨迹及其模式尚无共识，但通常发现有一部分人的抑郁症状概率较低且稳定；同时，还有不同水平的抑郁症状和变化程度的异质性群体[12-14]。过去有过抑郁症状的人未来更容易再次出现抑郁症状[15]。此外，有亚阈值抑郁症状的人在时间上更容易出现症状波动[16]。在分析普通人群的抑郁症状轨迹时，常见到大量零值。由于无症状者和有症状者在本质上的差异，对整个数据集应用单一的回归或分类模型可能无法准确估计特征的重要性。为了解决这个问题，人们广泛使用零膨胀模型处理9项患者健康问卷（PHQ-9）数据。然而，在考虑抽样零值的理论假设时，障碍模型比零膨胀模型更为合适[17]。在零膨胀模型中，结构性零值与抽样零值不同：抽样零值是指尝试后仍未获得结果的情况，而结构性零值是指从未尝试的情况。对于PHQ-9来说，总分为0表示没有抑郁症状。换句话说，抽样零值正好反映了结构性零值。在障碍模型中，所有抽样零值都被视为结构性零值[17,18]。因此，本研究将使用贝叶斯多层障碍模型来检测社区居住老年人的抑郁症状的存在和严重程度。为了更好地解释协变量与目标结果变量之间的关联，障碍模型估计了两个回归方程[17,18]。在二元部分，障碍模型使用逻辑回归来估计是否有抑郁症状；在连续部分，障碍模型估计非零抑郁症状分数者的抑郁症状严重程度[17,18]。

**总结**
本研究旨在探讨通过机器学习框架中的贝叶斯多层障碍模型，利用从可穿戴设备收集的主动和被动数字表型数据来监测社区居住老年人的抑郁症状。

**研究程序**
为了开发针对老年人抑郁症状的机器学习算法，我们在韩国拥有城乡地区的原州市招募了685名50至80岁的成年人。纳入标准包括自愿参与研究、年龄在55岁及以上、没有认知障碍、没有酒精或物质使用问题、没有身体残疾，并能在1.5小时的基线访谈中保持专注。有2名参与者的数据被排除，因为他们是重复记录。在683名访问我们校园并与我们训练有素的研究人员进行一对一访谈的老年人中，411名参与者同意长期监测他们的抑郁症状并安装我们专门为这项研究开发的智能手机应用程序。通过面对面的基线数据收集，参与者报告了他们的 demographic 特征、身体健康和心理功能。随后，我们开发了一个智能手机应用程序来监测参与者的抑郁症状，邀请他们每天报告情绪、每周的压力暴露情况和每月的抑郁症状。这些基于应用程序的调查在大约24个月（2021年3月至2023年3月）内通过智能手机收集了主动数据。最终，共有352名受访者的4566个案例被纳入分析，包括年度面对面筛查数据和主动数据（如每月的PHQ-9分数）。然而，由于可用于研究的智能手表数量有限，被动感知数据的样本量较小。我们的智能手机应用程序设计用于每日、每周和每月的调查，同时与三星健康应用程序连接，使智能手表收集的步数和睡眠日志数据能够发送到我们的服务器。该研究方案发表在一份国际同行评审的医学期刊上[19]。在这项研究中，我们分析了通过智能手表从147名参与者那里收集的1011个案例，其中包括主动和被动感知数据以及传统的面对面调查工具。我们使用智能手机应用程序中的PHQ-9 [20] 来测量主观抑郁症状。在这项研究中，我们使用了两种类型的抑郁症状作为独立的结果变量。为了研究数字表型与抑郁症状严重程度之间的关联，我们首先使用总PHQ-9分数作为连续部分的结果。此外，为了探索我们的模型在普通人群中筛查抑郁症状个体的潜在应用，我们还在模型的二元部分将结构零与非零进行了分类。

从参与者通过智能手机应用程序报告的主动数据收集中提取的特征包括：一个月内每日情绪得分的平均值和标准差（范围从非常好“(1)”到非常抑郁“(5)”；一个月内每周压力暴露的平均值及其标准差；参与者因工作而经历压力的频率；参与者因人际关系而经历压力的频率；参与者因重大生活事件（如死亡、离婚、结婚或出生）而经历压力的频率；参与者因健康问题而经历压力的频率；参与者因财务问题而经历压力的频率；以及参与者因极端创伤性生活事件（如犯罪、自然灾害或事故）而经历压力的频率。

从被动感知数据收集中提取的特征包括：一个月内每日步数的平均值和标准差；一个月内深度睡眠的平均持续时间（以分钟计）；一个月内轻度睡眠的平均持续时间（以分钟计）；一个月内快速眼动（REM）睡眠的平均持续时间（以分钟计）；上床后第一个非清醒睡眠阶段的平均持续时间（以分钟计）；醒来前最后一个非清醒睡眠阶段的平均持续时间（以分钟计）；每日睡眠的有效性；夜间醒来时间超过5分钟的频率；以及工作日与周末平均睡眠时间的差异。所有特征在运行分析之前都进行了标准化。

此外，月份变量和3个季节分类变量也是随时间变化的特征，但我们对它们的处理方式不同。鉴于我们假设抑郁症状不会随时间线性变化，我们添加了3个二进制变量来反映4个季节。由于夏季阳光时间最长，我们将夏季设为参考季节，其他季节（春季、秋季和冬季）被编码为二进制变量。之后，我们测试了月份变量或3个分类变量与抑郁症状结果变量之间的直接关联。我们发现月份变量与抑郁症状之间存在显著关系，但没有发现3个季节二进制变量与任何结果变量之间存在显著的直接关联。因此，在最终的贝叶斯模型中，我们只包含了月份变量作为时间变量。对于3个季节二进制变量，我们将它们与其他特征一起纳入主成分分析（PCA），但在最终的贝叶斯模型中并没有将它们单独从主成分中提取出来。

作为不随时间变化的常量特征，人口统计特征包括参与者的性别（1：男性；0：女性）、年龄、教育水平、月收入平均值、家庭成员数量、婚姻状况（1：已婚并与配偶同住；0：其他），以及参与者是否从事农业工作（1：是；0：否）。由于月收入数据非正态分布，因此对其进行了对数转换。为了筛查参与者的身心健康状况，我们还包括了以下特征：参与者是否定期锻炼（1：是；0：否）；参与者是否有吸烟史（1：是；0：否）；参与者每月饮酒的次数；参与者每天睡眠的小时数；参与者一生中患慢性疾病的次数；参与者是否曾在诊所被诊断出患有重度抑郁症；根据Mini-International Neuropsychiatric Interview (MINI) [21]，参与者一生中经历的抑郁发作次数；根据7项Generalized Anxiety Disorder scale (GAD-7) [22]的总分，评估的广泛性焦虑障碍程度；根据20项University of California Los Angeles Loneliness Scale (UCLA Loneliness) [23]的总分，评估的孤独感程度；根据12项Multidimensional Scale of Perceived Social Support (MSPSS) [24]的总分，评估的感知社会支持程度；以及根据27项Early Trauma Inventory–Short Form (ETI-SF) [25]的总分，评估的早期童年创伤类型数量。

在统计分析方面，作为一种机器学习方法，我们将每个参与者的数据按时间顺序分为80%用于训练和20%用于测试。在数据预处理过程中，我们检查了来自面对面、主动和被动感知数据的所有特征，并使用Multiple Imputation by Chained Equations (MICE) 分别对缺失值进行插补，以避免数据泄露。在总共1011个案例中，有5个（0.49%）案例的每日情绪调查数据缺失，22个（2.18%）案例的主动数据中的每周压力调查数据缺失。此外，有11个（1.09%）案例在面对面数据中没有提供关于一生中抑郁发作次数的答案。另一方面，被动感知数据基本完整，除了步数数据。由于被动感知数据是在毫秒级别收集的，而抑郁症状是按月评估的，因此很难观察到被动感知数据中的缺失值。在这项研究中，我们将所有主动和被动感知特征转换为月份级别。关于步数数据，由于技术传输问题，有157个（15.53%）案例被视为缺失。也就是说，智能手表记录的步数没有一致地传输到服务器，而智能手机记录的步数则被准确捕获。在访问参与者时发现这个问题后，将此期间的步数数据视为缺失，以避免使用不准确的值。因此，应用MICE来处理这些技术引起的缺失值，假设缺失与抑郁症状或身体活动行为无关。在使用MICE对43个特征中的缺失值进行插补时，我们保留了ID和时间信息以保持纵向数据结构。之后，为了降低特征维度，进行了PCA。使用R中的配方工作流程，首先将变量标准化为平均值0和标准差1。通过并行分析和Cattell scree测试来确定保留的主成分（PCs）数量。在PCA阶段，我们使用配方函数计算了训练数据的参数均值和标准差，并计算了PCA旋转。我们将这些参数应用于训练数据和测试数据。

在开发机器学习算法时，我们使用了R中的贝叶斯建模，考虑到了样本大小。与传统的线性或逻辑回归模型等频率主义方法不同，贝叶斯模型为每个模型参数使用马尔可夫链蒙特卡洛抽样产生一个后验分布。通过考虑模型不确定性，贝叶斯模型被认为能够产生更准确的估计，尤其是在样本量较小时，其优势更加明显。我们使用了4条链、4000次迭代、4个核心和2000次热身迭代。为了考虑纵向数据结构以及参与者的重复测量，我们使用了“brms”包进行贝叶斯多层次建模，并为每个个体ID添加了一个随机截距。最后，我们使用了障碍模型来解释抑郁症状的存在和严重程度。通过使用两个独立的方程，即在连续部分使用回归，在二元部分使用逻辑回归，障碍模型旨在有效解释患有抑郁症的概率和抑郁症状的严重程度。模型系数是使用训练数据估计的，我们在独立测试数据上评估了预测性能和泛化能力。对于连续部分的结果变量（即总抑郁症状分数），模型评估指标包括R2、均方根误差（RMSE）和平均绝对误差（MAE）。对于二元部分的结果变量（即患有抑郁症的概率），模型评估指标包括接收者操作特征曲线下面积（AUC-ROC）、精确度、灵敏度、特异性和F1分数。在具有两种类型结果变量的贝叶斯多层次障碍模型中，每个参数都报告了回归系数、95%可信区间（CrIs）、R-hat、批量有效样本量（bulk-ESS）和尾部ESS。对于贝叶斯多层次障碍模型的模型诊断，我们使用后验预测检验来评估模型适用性，将观察数据与从后验预测分布中抽取的复制数据集进行比较。我们还进行了Pareto平滑重要性抽样留一法（PSIS-LOO）交叉验证。使用Pareto k诊断值评估了PSIS-LOO近似的可靠性。

在收集数据之前，延世大学未来校区（IRB编号1041849-202401-SB-020-11）的机构审查委员会审查并批准了涉及人类参与者的所有程序和措施。所有参与者都提供了书面知情同意书以参与这项研究。所有获得的数据都进行了去标识化处理。参与者在完成基线面对面调查后获得了30,000韩元（约合21.29美元），并根据他们在移动应用调查中的完成率每3个月获得10,000韩元（约合7美元）。在本文中，任何文本、图像或表格中均未包含个别参与者的身份信息。

在411名专门为研究目的安装了我们智能手机应用程序的参与者中，通过应用程序收集了352名参与者的抑郁症状（PHQ-9）和主动数据（如每日情绪和每周压力）。此外，我们还使用三星Galaxy智能手表从147名参与者那里收集了被动感知数据（如每日步数和以毫秒为单位的睡眠日志）。我们数据集中的参与者特征在多媒体附录1中呈现。如多媒体附录2所示，进行了逻辑回归分析，以评估流失偏差是否与人口统计特征和健康相关信息有关。关于被动感知数据的流失，佩戴智能手表的147名参与者与未佩戴智能手表的205名参与者在所有特征上没有明显差异。进一步，我们测试了结果变量中的流失偏差；然而，在主动和被动数字表型数据中未发现组间差异（t350=0.94；P=.35，用于抑郁症状的严重程度；t350=?0.13；P=.89，用于经历抑郁症状的概率）。

为了降低特征维度，我们首先进行了并行分析和PCA。图1显示了并行分析的scree图，表1显示了保留的特征值大于1.0的PCA结果。虽然Kaiser标准（特征值>1）建议使用16个成分，但并行分析结果表明12个成分显著超过了随机数据集的特征值。然而，由于总样本量较大，我们需要减少PC的数量，scree图显示第六个成分之后斜率趋于平缓（图1）。最终，我们保留了6个成分以便于解释，这些成分解释了总方差的36.53%（表1）。

图1. 用于确定主成分（PCs）数量的并行分析scree图。线上的蓝色X标记表示来自观察数据集的PCs的特征值。红色虚线表示来自随机生成数据集的平均特征值。红色长虚线表示来自自助样本的特征值。在这个图中，红色虚线和红色长虚线重叠。

表1. 主成分分析结果。
主成分（n） | 特征值 | 解释的总方差百分比 | 累积解释的总方差百分比
--- | --- | --- | ---
14 | 14.14 | 9.62 |
2 | 22.83 | 6.59 |
3 | 23.24 | 5.67 |
4 | 21.88 | 42.32 |
5 | 27.27 | 52.17 |
6 | 50.62 | 32.32 |
7 | 11.32 | 36.53 |
8 | 14.22 | 36.53 |
9 | 16.22 | 38.47 |
10 | 15.33 | 35.64 |
11 | 19.14 | 34.84 |
12 | 13.93 | 32.45 |
13 | 10.13 | 50.62 |
14 | 11.32 | 33.69 |
15 | 12.12 | 28.45 |
16 | 11.14 | 26.97 |

表2显示了前5个贡献最大的特征的因子载荷。对于PC1，焦虑（λ=0.32）、社会支持（λ=?0.32）、孤独感（λ=0.29）、每日负面情绪的平均值（λ=0.27）和每周压力的平均值（λ=0.27）具有较高的因子载荷。这台电脑代表了心理压力和低社会支持的一个维度。PC1的特征值为4.14，解释了总方差的9.62%。对于PC2，前5个贡献最大的特征是参与者的性别（男性为λ=0.40）、吸烟（λ=0.40）、浅睡眠阶段的睡眠时间（λ=0.27）、深度睡眠阶段的睡眠时间（λ=0.24）和教育水平（λ=0.23）。这个PC反映了高睡眠时间、受过教育且吸烟的男性群体特征。它的特征值为2.83，解释了总方差的6.59%。结合参与者的 demographic 和心理特征，PC3 反映了另一种群体特征。具体来说，收入（λ=0.36）、平均每周压力（λ=0.28）、每周压力的标准差（λ=0.26）和教育水平（λ=0.24）具有正的因子载荷，而孤独感（λ=?0.26）具有负的因子载荷。这个PC反映了高社会经济地位、高压力和低孤独感的群体特征。它的特征值为2.44，解释了总方差的5.67%。对于PC4，浅睡眠时间（λ=?0.33）、REM睡眠时间（λ=?0.33）和深度睡眠时间（λ=?0.31）具有负方向的较高因子载荷，而吸烟（λ=0.25）和男性（λ=0.25）具有正的因子载荷。PC4反映了睡眠时间较短的男性吸烟者群体特征。这个PC的特征值为2.32，解释了总方差的5.39%。对于PC5，入睡时间的标准差（λ=0.29）、从事农业工作（λ=0.28）和婚姻状况（λ=0.27）具有正的因子载荷，而饮酒（λ=?0.33）和总睡眠时间（λ=?0.21）具有负的因子载荷。这个PC反映了农民群体特征，他们的睡眠不规律。它的特征值为2.17，解释了总方差的5.05%。对于PC6，当参与者具有较高教育水平（λ=0.39）、步行较少（λ=?0.34）、较高收入（λ=0.30）、家庭成员较多（λ=0.30）和较高孤独感（λ=0.26）时，具有较高的因子载荷。这个PC反映了高社会经济地位、低活动量和高孤独感的群体特征。它的特征值为1.81，解释了总方差的4.22%。

表2. 6个主成分的前5个贡献最大特征。

**成分及前5个特征**
- 主成分1：焦虑（λ=0.32）、社会支持（λ=?0.32）、孤独感（λ=0.29）、每日负面情绪平均值（λ=0.27）、每周压力平均值（λ=0.27）
- 主成分2：男性（λ=0.40）、吸烟（λ=0.40）、浅睡眠时间（λ=0.27）、深度睡眠时间（λ=0.24）、教育水平（λ=0.23）
- 主成分3：收入（λ=0.36）、每周压力平均值（λ=0.28）、每周压力的标准差（λ=0.26）、孤独感（λ=?0.26）、教育水平（λ=0.24）
- 主成分4：浅睡眠时间（λ=?0.33）、REM睡眠时间（λ=?0.33）、深度睡眠时间（λ=?0.31）、吸烟（λ=0.25）、男性（λ=0.25）
- 主成分5：饮酒（λ=?0.33）、入睡时间的标准差（λ=0.29）、从事农业工作（λ=0.28）、婚姻状况（λ=0.27）、总睡眠时间（λ=?0.21）
- 主成分6：教育水平（λ=0.39）、每日步数平均值（λ=?0.34）、收入（λ=0.30）、家庭成员数量（λ=0.30）、孤独感（λ=0.26）

**贝叶斯多层次障碍模型（连续部分）：老年人的抑郁症状总分**

在连续部分中，因变量是通过原始PHQ-9总分测量的抑郁症状的严重程度，范围从0到27。表3显示了模型结果，包括每个主成分的回归系数。在6个主成分中，第一个（γ=0.15，95%置信区间0.08-0.23）和第四个（γ=0.09，95%置信区间0.01-0.18）与社区居住的老年人的抑郁症状严重程度显著相关。也就是说，当社区居住的老年人经历更大的心理困扰和较低的社会支持（PC1）时，抑郁症状的严重程度可能更高。此外，当老年人的REM睡眠、浅睡眠和深度睡眠时间较短且为男性且吸烟较多时，抑郁症状的严重程度也可能更高。截距的显著方差（方差0.435，95%置信区间0.24-0.76）表明个体间抑郁症状严重程度的差异。然而，没有发现随时间的显著趋势（γ=?0.02，95%置信区间-0.03至0.00）。R-hat值用于衡量马尔可夫链蒙特卡洛链是否收敛到相同的后验分布。所有参数的R-hat值均为1.00，表明收敛性良好。Bulk-ESS用于判断后验均值是否可靠，tail-ESS用于判断置信区间是否可靠。Bulk-ESS和tail-ESS均大于1000，被认为是良好的。

表3. 贝叶斯多层次障碍模型对抑郁症状的估计。

**抑郁症状**
- 估计值（95%置信区间）
- 估计误差
- R-hat
- Bulk-ESS
- Tail-ESS

**固定效应**
- 连续部分：
- 截距：0.78（0.51至1.04）
- PC1：0.15（0.08至0.23）
- PC2：0.01（-0.08至0.10）
- PC3：-0.09（-0.18至0.00）
- PC4：0.09（0.01至0.18）
- PC5：0.03（-0.07至0.14）
- PC6：0.05（-0.05至0.15）

**二元部分**
- 截距：-1.36（-2.29至-0.47）
- PC1：-0.79（-1.12至-0.49）
- PC2：0.07（-0.29至0.43）
- PC3：-0.18（-0.51至0.15）
- PC4：-0.22（-0.52至0.08）
- PC5：-0.09（-0.43至0.24）
- PC6：0.05（-0.31至0.41）

**随机效应**
- 标准差（截距：连续部分）：0.66（0.49至0.87）
- 标准差（截距：二元部分）：3.07（2.31至4.06）

**贝叶斯多层次障碍模型（二元部分）：识别老年人抑郁症状的存在**

在贝叶斯多层次障碍模型中，二元部分模拟了观察值属于结构零组的概率，而连续部分模拟了能够生成非零值的观察值的结果大小。对于二元部分，我们使用了与连续部分相同的6个主成分。贝叶斯多层次障碍模型的结果见表3。关于每个参数的逻辑回归系数，第一个主成分（γ=?0.79，95%置信区间-1.12至-0.49）与结果呈负相关。在这个二元部分，随着时间的推移，零的数量有增加的趋势（γ=0.11，95%置信区间0.06-0.17）。所有参数的R-hat值均为1.00，Bulk-ESS和tail-ESS均足够大，范围从2336到5927。二元结果的随机截距的标准差为3.07（95%置信区间2.31-4.06）。

**贝叶斯多层次障碍模型的模型诊断**

在连续部分，尽管模型在测试集上的表现有所下降，但整体预测准确性仍然可以接受，表明具有合理的泛化能力。如表4所示，训练数据的R2为0.650，RMSE为1.60，MAE为0.95。相比之下，测试数据的R2为0.53，RMSE为2.25，MAE为1.22。尽管测试数据上的模型评估指标低于训练数据，但贝叶斯多层次障碍模型在新数据上的解释能力达到了53%，表明它能够捕捉到一些未解释的“噪声”或次要因素。当然，训练数据和测试数据之间存在12%的性能差距，这表明当前的主成分集尚未捕捉到所有因素。

表4. 贝叶斯多层次障碍模型的性能指标。

**性能指标**
- 训练集
- 连续部分：RMSE=1.60，MAE=0.95，R2=0.650
- 二元部分：AUC-ROC=0.950，准确率=0.87，敏感性=0.88，召回率=0.88，特异性=0.87，精确度=0.86，F1分数=0.87

**图2. 使用贝叶斯多层次障碍模型对测试数据集中抑郁症状发生概率的ROC曲线**

图2显示了使用贝叶斯多层次障碍模型对测试数据集中抑郁症状发生概率的ROC曲线。实际零值为534（52.82%），共1011个数据。在8:2的数据分割中，实际零值为159（59.11%），共269个数据。预测零值也为161（59.85%）。在161个（59.85%）的案例中，30个（11.15%）的预测零值是错误的，而131个（48.70%）是正确的。该模型在训练数据上表现出很强的区分能力，并在独立测试数据上保持了良好的预测性能，没有严重的过拟合现象。

**讨论**

**主要发现**

本研究调查了从可穿戴设备（包括智能手机和智能手表）收集的数字表型数据如何帮助监测老年人的抑郁症状。本研究的主要发现提供了关于使用数字表型数据监测老年人心理健康的实证证据，这与之前的概念框架研究结果一致[26,27]。这些发现支持了减少未诊断和未经治疗的抑郁症状比例的临床意义。具体来说，我们的结果可能扩大了可以使用数字表型数据监测抑郁症状的年龄范围。我们的研究表明，结合主动和被动感知的数字表型数据以及传统的面对面筛查工具可以提高模型性能，特别是在监测老年人的总抑郁症状得分方面。在本研究中，贝叶斯多层次障碍模型解释了抑郁症状严重程度的约53%的方差（R2=0.53），并且在筛查社区居住的老年人是否经历任何抑郁症状方面表现良好（AUC-ROC=0.88；F1分数=0.75）。预计机器学习将成为使用智能手机筛查抑郁症的宝贵工具[28]。随着年轻一代迅速掌握尖端技术，以往关于数字表型的研究主要集中在大学生身上[29]。然而，由于与心理健康问题相关的禁忌观念的存在，寻求帮助的可能性较低[30]，而智能设备设计得非常直观易用，因此这对老年人来说可能很有帮助。老年人由于一生中受到更多关于心理健康的禁忌和污名化的影响，不太可能寻求专业心理健康服务。我们从贝叶斯多层次机器学习方法中得出的发现支持了主动和被动感知数字表型数据在使老年人更容易获得专业心理健康监测方面的适用性。

本研究还建议考虑数据的多层次结构。最近，学术界越来越关注开发机器学习算法；许多研究将多模态数据视为单一维度，主要关注被动感知数据的作用[31,32]。此外，以往报告实证证据的研究往往在短时间内收集数据[29]。然而，在使用数字表型监测抑郁症状时，对目标人群进行纵向监测将更有益[33]。从统计学角度来看，通过纵向监测收集的数据是嵌套数据，即来自同一人的重复收集的数据具有共同特征。因此，这违反了简单线性或逻辑回归的独立性假设。在这种情况下，使用多层次方法是必要的。到目前为止，很少有努力将多层次方法应用于机器学习模型以持续监测抑郁症状。本研究的发现表明，多层次建模在开发用于监测抑郁症状的机器学习模型方面具有潜在的适用性。有趣的是，当我们使用相同的6个主成分（PCs）来解释抑郁症状的总分，以处理我们的嵌套数据，并比较简单回归模型和多层次回归模型的结果时，我们发现贝叶斯多层次回归模型的R2值显著高于贝叶斯回归模型（测试数据的R2值为：贝叶斯回归0.32 → 贝叶斯多层次回归0.52）。这表明，仔细考虑多层次数据结构可以提高模型性能。在一般人群中筛查抑郁症状时，那些对抑郁具有持续低易感性和那些容易患上抑郁的人之间存在异质性[12-14]。在这项研究中，我们还观察到数据中存在过多的零值。我们使用了贝叶斯多层次障碍模型来处理这个问题。研究结果表明，使用贝叶斯多层次障碍模型可以获得良好的性能。如图2所示，后验预测检验表明观察到的数据与从后验预测分布生成的数据之间有很好的一致性。这表明模型充分捕捉了结果的关键分布特征。此外，如图3所示，PSIS-LOO诊断显示大多数帕累托形状参数（k）低于0.7（97.8%），只有少数值超过0.7。这表明重要性权重稳定，样本外预测准确性可靠。这些结果支持了我们所提出模型的适当性和稳健性。在将数字表型应用于实时监测以筛查抑郁症状时，将通过多模态方法收集大量特征。为了降低维度，研究人员可以使用特征提取或特征选择来处理这些大量特征，除非他们能够获得资金和资源来从大量人群中收集大规模数据。为了筛查抑郁症状，我们选择了基于PCA的特征提取而不是特征选择。鉴于使用数字表型筛查抑郁症状的主要目的是及时识别可能出现抑郁症状的个体并对其进行早期干预，我们认为基于PCA的特征提取具有灵活性，可以识别出在监测时刻该社区中处于抑郁症状状态的特定人群。抑郁症状的机制并不是单一的[34]，因此使用特征选择可能会在解释目标结果时引入额外的偏差，尤其是在样本量较小或其代表性不确定的情况下。因此，我们更倾向于使用特征提取，假设这样会损失较少的信息。这项研究展示了PCA和贝叶斯建模的有趣结果。例如，在PCA结果中，PC2和PC4的前5个特征看起来相似，但特征排名及其因子载荷的方向在每个潜在PC中有所不同。换句话说，在PC2或PC4中，男性和吸烟都有正的因子载荷。然而，在PC2中，与睡眠相关的特征（浅睡眠和深睡眠）有正的因子载荷，而在PC4中，与睡眠相关的特征（浅睡眠、REM睡眠和深睡眠）都有负的因子载荷。在贝叶斯建模中，PC4与抑郁症状的严重程度显著相关，而PC2则没有。我们并不坚持认为在其他数据中会出现相同的PCA结果。相反，这一结果表明，使用PCA进行特征提取可以通过揭示高风险人群来增强对老年人抑郁症状的更灵活和可扩展的社区筛查。在提取6个PC时，我们包括了所有特征，而不是将时变特征和时不变特征分开。这主要是因为，正如我们在结果部分讨论的那样，经历抑郁症状的潜在人群可能由个人特征和时变特征的组合形成。如果在PCA阶段将时变特征与时不变特征分开，从碎片化数据中提取的PC解释目标结果的能力将会减弱。在本研究的PCA结果（表2）中，每个PC都显示了传统调查工具和至少一种主动或被动数字表型特征的混合。从大量参数中提取PC时，我们的结果显示，不仅众所周知的面对面调查项目（如社会支持（MSPSS）、孤独感（UCLA Loneliness）和焦虑（GAD-7）有贡献，还有主动数字表型参数（如每周压力）和被动感知数字表型参数（如与睡眠相关的特征）也有贡献。通过合并时变状态和时不变的个人特征，我们希望PCA能够捕捉到现实世界数字表型环境中共同出现的特征的总体协方差结构。因此，提取的成分应被解释为反映联合模式的复合特征状态维度，而不是纯粹的潜在特征或纯粹的动态因素。在这项研究中，贝叶斯多层次障碍模型的结果与先前的研究结果一致。无论是连续部分还是二元部分，PC1都与结果显著相关。在提取PC1时，焦虑、孤独感、每日负面情绪和每周压力都有正的因子载荷，而社会支持则有负的因子载荷。在贝叶斯建模中，PC1与连续部分中抑郁症状的严重程度呈正相关。这个PC1与二元部分中的结构零值呈负相关。这些发现与先前的研究结果一致，表明心理社会福祉较低的老年人更容易出现抑郁症状并且症状更严重[35-37]。此外，PC4对于结构零值没有统计学意义，但它与抑郁症状的严重程度呈正相关。这意味着吸烟严重且REM睡眠时间短、浅睡眠和深睡眠时间短的老年男性更有可能经历更高水平的抑郁症状。这揭示了该社区中抑郁症状严重程度较高的潜在人群。这一发现与先前的研究结果一致，这些研究指出吸烟与抑郁之间存在正相关，尤其是在老年人中[38]。这一发现也与其他研究结果一致，这些研究表明更高的清醒度和较低的睡眠效率（总睡眠时间减去清醒时间）与老年男性抑郁风险增加有关[39]。在二元部分，障碍模型结果显示零值随时间增加的趋势。我们担心参与者在回答每月PHQ-9调查时可能会感到疲劳。当我们测试每个PHQ-9项目的响应方差是否减少时，并没有观察到这种趋势。当我们检查报告零分和报告非零分的参与者之间的平均步数和睡眠效率时，零分组的平均步数（非零分为8512步，零分为9724步）和睡眠效率（非零分为85.9%，零分为86.1%）更高。这些结果表明，二元部分中零值的增加可以解释为症状改善的信号。这与先前关于使用技术长期远程监测抑郁症状的主观体验的研究结果一致[40]。通过多站点、纵向定性访谈，参与者报告说他们参与研究的目的是为了通过分享自己的经历来帮助他人，但他们也从中获得了好处，例如提高了自我意识。在我们的研究中，我们还听到一些参与者表示，他们的研究参与使他们更加关注自己的情绪和健康状况。这意味着使用数字表型进行纵向监测本身可以对提高老年人的自我意识和自我护理具有临床意义。需要考虑的一点是，我们的结果显示二元部分的随机截距标准差为3.07，这表明基线症状倾向可以反映强烈的个人特征。通过将每个参与者的时间序列数据按8:2的比例分开，我们允许模型使用训练数据中看到的已知随机截距。正如多层次逻辑回归模型方程[41]中正式化的那样，我们的结果表明大约74%的方差存在于个体间层面，而仍有相当大的个体内方差（大约26%）可用于建模。实际上，这种异质性在纵向精神病学研究中很常见，其中症状较少的个体导致截距之间的较大分离[12-16]。在对数几率尺度上，这种方差反映了行为健康方面的高度个体稳定性，但仍留有足够的个体内方差可以通过使用数字表型特征进行建模。在最近的一项研究[42]中，通过分析每日智能手机使用情况的个体内一致性，发现在考虑来自同一参与者的纵向数据时，个体内方差在人格研究中得到了更好的解释。另一项先前的研究[43]强调了数字表型在捕捉每个个体的独特数据流方面的好处。尽管鉴于总体症状的异质性，确定群体层面的模式具有挑战性，但数字表型是追踪个体健康状况的宝贵工具，有助于有效捕捉个体功能障碍并制定个性化的干预计划[43]。总的来说，即使考虑到较大的个体间方差，数字表型也可以成为个性化的个体内健康追踪的有用工具。此外，这项研究的发现表明，在一般人群中筛查抑郁症状时，处理数据不平衡将是一个关键挑战，即使已经考虑了主动和被动数字表型以及多层次数据结构。尽管重度抑郁症很普遍，但经历抑郁症状的个体绝对数量远少于无症状个体。例如，根据韩国国家心理健康中心[44]的数据，抑郁症的年患病率为1.7%。事实上，无论疾病类型如何，其他医学研究中也观察到了数据不平衡现象。例如，最近一项[45]开发物理疾病预测模型的研究发现，庞大的数据集有助于解决数据稀缺问题，但仍面临数据不平衡的挑战。尽管数据量巨大，但分布仍然严重偏斜，少数类别仍然代表性不足。正如最近的研究[46-48]所探讨的，未来的研究需要考虑不仅数据量的增加，还包括重采样和合成数据的生成。这项研究有几个局限性，读者需要谨慎对待。首先，由于智能手表的成本较高，这项针对韩国老年人的研究分析了来自较小样本的数据。此外，由于技术问题，我们无法在iOS设备（苹果公司）上安装我们的智能手机应用程序。幸运的是，50至80岁的韩国老年人中有超过85%使用Android（谷歌有限责任公司）智能手机[49]，因此我们继续进行了研究。然而，未来的研究如果能够从同时运行Android和iOS的移动设备和智能手表中收集数据将会更好。此外，由于这项研究项目的主要目的是降低老年人未被发现的抑郁症状的风险，我们针对的是一般人群。然而，这导致我们的数据中临床抑郁的比例较小。尽管需要更多的研究来深入探讨在实际环境中应用数字表型时抑郁症状的个体间和个体内差异[50]，但这一限制阻碍了测试数字表型数据与不同类型抑郁障碍之间更复杂的动态关系。收集更多的临床病例将有助于比较不同情绪障碍类型与数字表型之间的关系。这种方法可以帮助在数字表型研究中开发更加个性化的心理健康监测。最后，在这项研究中，贝叶斯多层次障碍模型连续部分的校准斜率为1.35，表明它在较低预测值时倾向于低估严重程度，尽管模型有效地捕捉了症状严重程度的相对差异。在数字表型应用的背景下，如果直接使用原始预测分数，这种校准误差可能导致风险分层膨胀和临床干预的过早升级。虽然该模型似乎适合按相对症状负担对个体进行排名并支持群体层面的筛查，但在将预测的PHQ-9分数用于指导个性化临床决策之前，还需要进行额外的筛查。这些结果强调了在现实世界的监测环境中部署基于机器学习的严重性预测模型时，明确评估和校正校准的重要性。

尽管本研究存在局限性，但这些发现可以通过提供应用于老年人的贝叶斯多层次机器学习的实证证据，为相关学术领域中关于心理健康和数字表型学的研究做出贡献。最近，数字表型学的协议研究和综述研究数量迅速增加。建议收集更多的实证证据来应对挑战、复制研究结果，并探索更有效的策略，以改进数字表型学的应用，从而更好地筛查老年抑郁症。数字表型学结合主动和被动数据以及传统的面对面筛查工具，可以帮助监测老年人的抑郁症状。此外，还建议进一步研究有效数字生物标志物的开发和验证，以便在普通人群中早期检测抑郁信号。

在这项研究中，我们探讨了数字表型学（包括主动和被动传感数据以及传统的面对面调查）如何帮助监测老年人的抑郁症状。为了考虑时变和时不变特征，我们使用了贝叶斯多层次建模方法来分析数据。具体来说，我们采用了贝叶斯多层次障碍模型来解释老年人抑郁症状体验的异质性。通过并行分析和主成分分析（PCA）对从面对面调查、主动数据和被动数据中收集的所有参数进行降维处理，有助于揭示具有高抑郁症状风险的潜在特征。贝叶斯多层次障碍模型在新参与者数据中对抑郁症状的严重程度和易感性评估方面表现良好。至少有一个主动和一个被动数字表型特征位列主要主成分的前5位。这些结果支持了数字表型学数据有助于实现实时监测、筛查普通人群中抑郁症状的观点。未来关于有效处理数据不平衡问题的研究将有助于推动数字表型学的学术发展，特别是在监测社区居住的老年人抑郁症状方面。

热点排行