使用 iPhone 和 Apple Watch 进行的 “直觉” 研究:大规模远程捕获认知健康数据

【字体: 时间:2025年03月05日 来源:Nature Medicine 58.7

编辑推荐:

  “直觉” 研究用 iPhone 和 Apple Watch 收集 23,004 名美国成年人数据,助力轻度认知障碍(MCI)分类及认知轨迹研究。

  

研究背景

在信息时代,大脑衰老的研究方式正随着科技发展而改变。智能手机、可穿戴设备和移动计算平台已融入日常生活,为测量认知和行为提供了新途径。全球数十亿人使用消费级移动设备,利用这些设备收集数据,有望克服当前认知健康研究中的一些障碍,如代表性有限(种族 / 民族、地理方面)和认知测量工具准确性不足等问题。
随着全球人口老龄化加剧,痴呆患者数量不断增加,预计到 2050 年将增至三倍。其中,阿尔茨海默病(AD)及相关痴呆是主要病因。在痴呆的发展过程中,主观认知抱怨 / 损害 / 下降(SCC/SCI/SCD,统称 SCC)往往是临床前痴呆的先兆,而患有 SCC 的老年人转化为前驱痴呆(即轻度认知障碍,MCI)的风险较高。MCI 是一种临床综合征,表现为患者或知情人对认知下降的主观担忧,同时临床医生检测到客观认知缺陷,但患者仍保留日常生活活动能力。MCI 患者是 AD 及相关痴呆的高危人群,且常伴有可改变的医学和精神疾病共病。因此,大规模检测 SCC、MCI 及其潜在病因成为公共卫生的迫切需求,早期发现认知下降有助于个体采取措施延缓认知衰退。
传统的神经心理学评估存在文化和人口统计学偏差,而患者面向的技术为评估认知表现和现实世界行为提供了新机遇。其中,被动技术可连续跟踪行为,无需用户特定输入;交互式方法则通过用户主动参与,在不同时间间隔评估认知和行为表现。这两种新兴技术有望推进认知监测领域的发展,补充传统临床神经心理学测量,帮助患者自我跟踪认知健康,并实现基于人群的脑健康筛查。
在这样的背景下,“直觉”(Intuition)大脑健康研究应运而生。该研究旨在通过收集大量美国人群的多模态被动和交互式数字信号,对认知下降风险进行表征,并开发预测分类法。

研究设计

“直觉” 研究是一项前瞻性、观察性和去中心化的研究,由 Biogen 公司与苹果公司合作开展,所有活动均通过定制的 iPhone 研究应用程序(Study App)进行,无需面对面访问。研究招募了年龄在 21 - 86 岁的美国居民,要求参与者拥有 iPhone 8 或更新版本并运行最新 iOS 系统,且愿意佩戴研究提供的 Apple Watch。参与者通过研究网站了解信息并在 Study App 上提供电子同意(e-consent)参与研究。
研究共招募了三类参与者,分为七个队列。第一类是认知功能正常的对照组(Controls),包括早期和中年(21 - 59 岁)的 Controls - EM(约 6,000 人)以及晚期(60 - 86 岁)的 Controls - L(约 12,000 人),后者又根据认知下降风险分为低风险和高风险组;第二类是有明显主观认知抱怨的 SCC 队列(约 2,000 人),年龄在 50 - 86 岁,通过特定筛查问卷确定;第三类是 MCI 队列(约 2,000 人),包括早期和中年自我报告认知障碍诊断的 MCI - EM(21 - 49 岁),以及晚期自我报告或经临床确诊的 MCI(50 - 86 岁,包括 MCI 和 MCI - CC)。
研究流程包括四个阶段:招募阶段通过多种策略广泛招募参与者,如电子邮件活动、口碑推荐、网络搜索和社交媒体广告等;筛选、电子同意和资格审查阶段,参与者下载 Study App 进行初步筛查,符合条件者提供电子同意、确认身份并完成相关问卷以确定队列资格;入职阶段,参与者熟悉 Study App 功能、任务和奖励,完成基线调查和认知评估;基线注册阶段及之后,参与者完成剑桥神经心理测试自动化电池(CANTAB)评估后,获得并配对 Apple Watch,开始收集被动数据,参与研究活动还可获得积分,完成一定任务量可保留 Apple Watch。
研究数据来源广泛,包括交互式认知测量和被动测量。交互式认知测量涵盖六个主要方面:SCC 调查(每半年在应用内进行 CFI - 14、E - Cog - 12 调查)、每月 CANTAB 评估(在应用外进行 30 分钟计算机化电池测试)、季度 Cam - Cog 爆发评估(在应用内进行 2 周、每天三次的高频测试)、季度语言评估(在应用内进行 5 分钟定制电池测试并录音)、远程研究(根据预设标准触发,进行远程访问评估认知健康和医疗共病,并进行远程蒙特利尔认知评估 tele - MoCA)以及认知背景调查(在应用内进行基线、季度和半年调查)。CANTAB 评估包含 PRMi、PRMd、PAL、SWM 和 MTS 五个测试,用于评估视觉短期情景、识别和工作记忆、处理速度、复杂注意力和执行功能等认知领域。季度 Cam - Cog 爆发评估则包含 N - Back 任务和数字符号替换测试(DSST),通过高频测试更好地反映用户认知功能。
被动测量方面,iPhone 和 Apple Watch 的多模态数据可测量多种人体功能。Sensor Kit 系统收集设备和应用使用、键盘指标、消息和电话使用等信息;Health Kit 记录身体活动、锻炼、心率、睡眠等健康指标。
研究严格遵循伦理原则,获得 Advarra 机构审查委员会(IRB)批准(Study ID 285PI401,Board no. 00000971),参与者均通过 Study App 远程提供知情同意。研究数据在存储和传输过程中均进行加密,确保数据安全。研究由一个科学委员会监督,该委员会成员来自临床研究、神经病学、精神病学、医学、技术、生物统计学、生物伦理学和患者倡导等领域,负责监督研究进展、提供指导并参与数据分析和结果传播。
研究的共同主要目标是开发并验证使用多模态被动传感器数据和 iPhone 及 Apple Watch 正常使用指标来区分正常认知和 MCI 个体的分类器,以及开发并验证跟踪认知表现波动的认知健康评分;次要目标是开发预测认知下降和 / 或转化为 MCI 的预测模型。由于研究目标不涉及传统假设检验,因此采用 Hanley 和 McNeil 以及 Riley 的方法计算样本量,以确保模型的准确性和可靠性。

研究结果

  1. 招募与入组情况:研究于 2021 年 9 月 20 日开始招募,18 个月内招募了 23,004 名美国成年居民,平均年龄 58.0 岁,年龄范围 21 - 86 岁。共 126,640 人下载 Study App,60,324 人进行预筛选、电子同意和电子邮件确认,其中 30,613 人符合继续参与条件,最终 23,004 人达到基线入组状态。招募策略多样,定向电子邮件活动和口碑推荐是主要招募方式,分别贡献约 33% 和 32% 的入组人数,且口碑推荐在招募代表性不足人群(如亚裔 / 亚裔美国人、黑人 / 非裔美国人、拉丁裔 / 西班牙裔)方面更为重要。
  2. 基线研究人群特征:入组参与者来自美国 50 个州,地理分布与美国人口密度相似。女性占 64.4%,31.5% 的参与者报告具有种族和民族多样性。在教育和收入方面,34.1% 的参与者报告未获得学士学位,22.1% 的家庭年收入低于 50,000 美元。不同队列在教育程度、疾病风险因素和认知症状等方面存在差异。例如,SCC 和 MCI 队列中教育程度较低的个体比例较高;MCI 患者与对照组相比,创伤性脑损伤(TBI)、心理健康障碍、吸烟的发生率更高;MCI - EM 队列在认知和神经精神症状负担方面得分较高,且与 MCI 队列在症状表现和诊断过程上存在差异。
  3. 依从性:在完成基线 CANTAB 评估、激活 Apple Watch 且入组至少 12 个月的 17,583 名参与者中评估累积研究依从性。被动设备使用依从性要求参与者积极使用 iPhone 并分享设备数据,且每天佩戴 Apple Watch 至少 4 小时;CANTAB 评估依从性定义为完成每月电池测试;季度评估依从性要求参与者在 14 天内完成至少 7 次 “爆发” 会话。总体而言,不同队列的依从性存在差异,老年对照组(Controls - L)和 SCC 参与者的设备使用和认知评估依从性较高,而年轻对照组(Controls - EM)和 MCI 队列的依从性较低。在远程研究方面,为 1,943 名参与者提供了远程研究会话,总体依从性为 52.2%,不同组别的依从性有所不同,MCI - CC 组的依从性最高(73.2%),且专家远程研究临床医生对 MCI 标签判定与临床现场诊断的一致性较高(93.0%)。
  4. 基线认知
    • 可行性:参与者对每月 CANTAB 和季度爆发认知评估的可行性反馈显示,部分会话被标记为 “分心”。年龄和认知状态影响分心比例,年轻对照组(50 岁以下)报告的分心比例高于年长对照组,MCI 相关队列的分心比例相对较低。
    • 临床有效性和可靠性:在完成至少十次每月会话的样本中评估 CANTAB 的重测信度,结果显示相关系数为中度到高度(0.50 - 0.80)。通过评估不同年龄、教育程度和认知状态的认知结果,发现符合神经心理学文献中预期的模式,表明无监督认知评估的有效性。
    • 结构效度:通过对所有结果变量进行 Pearson 相关矩阵分析和探索性因子分析,评估客观认知测量方法的结构效度。结果表明 CANTAB/Cam - Cog 测试能够探测不同的认知结构,与远程 MoCA 得分的相关性显示出这些测试在评估认知功能方面的有效性。
    • 组效度:评估无监督基线主观和客观认知结果的已知组效度,发现不同研究队列在选定的认知结果上存在显著差异。综合主观认知担忧和客观认知表现的测量分布,能更好地区分 MCI 与年龄匹配的对照组和 SCC 组。
  5. 初步概念验证 MCI 分类模型:基于核心人口统计学、基线主观(CFI/E - Cog)和客观(CANTAB)认知变量,开发了逻辑回归 MCI 分类器模型。在验证的 MCI 队列(MCI - CC 和经远程健康确认的 MCI)与 50 - 86 岁有或无认知抱怨的人群(SCC + Controls)中进行建模,模型的平均受试者工作特征曲线下面积(AUROC)为 0.85 ± 0.04,具有较高的敏感性(80.2%)、特异性(78.7%)和准确性(79.1%)。调整 MCI 患病率后,模型的阴性预测值和阳性预测值会发生变化。此外,单独使用核心人口统计学数据、基线 CANTAB 认知表现和主观认知调查分数训练的逻辑回归模型,进一步验证了模型核心组件的分类准确性。
  6. 交互式和被动研究数据示例:研究通过被动数字传感和交互式高频认知评估,旨在对 MCI 和认知风险轨迹进行分类,并描述潜在的认知数字表型。从典型的日常设备使用中选择了一些候选特征,如 iPhone 打字的 “每分钟点击次数”,后续将探索交互式认知评估测量与被动传感候选特征之间的数学关系。

研究讨论

“直觉” 研究是一项大规模的虚拟观察性研究,通过直接面向消费者的 App 收集 iPhone 和 Apple Watch 的交互式和被动数据。研究在 18 个月内招募了具有人口统计学多样性的人群,采用去中心化临床试验(DCT)框架,展示了远程 MCI 分类的可行性、可接受性和有效性。研究的亮点包括招募策略的有效性,吸引了大量不同背景的参与者;数据收集的多模态性,为研究认知健康提供了丰富信息;初步模型显示出较高的 MCI 分类准确性。
然而,研究也存在一些局限性。自我报告的临床病史可靠性和准确性有限,可能影响风险分层的准确性;英语流利度和 iPhone 使用资格标准限制了研究结果的普遍性;Apple Watch 的激励策略与传统研究补偿策略不同,可能对研究结果产生影响;此外,研究仅使用交互式认知数据进行 MCI 检测,被动数据检测认知障碍的能力有待进一步研究。
尽管存在这些限制,“直觉” 研究仍取得了有前景的早期结果。它为使用消费级数字设备进行远程、多模态和频繁的认知采样提供了支持,有望为生态有效筛查和跟踪认知健康提供可扩展的解决方案。未来研究可进一步探索被动数据在认知障碍检测中的作用,优化分类模型,并扩大研究范围,以更好地理解衰老、认知和神经退行性疾病的早期检测,为患者和临床医生提供更有效的移动工具,用于预防和早期检测常见的神经退行性和神经精神疾病。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号