综述：海灵和布里克斯顿测试在检测中老年人痴呆、进行性认知衰退和轻度认知障碍方面的有效性：一项系统综述和荟萃分析

【字体：大中小】 时间：2025年04月18日 来源：Neuropsychology Review 5.4

编辑推荐：

　　这篇综述通过对 50 项研究的荟萃分析，探讨海灵和布里克斯顿测试（HBTs）检测中老年人认知衰退的有效性。结果表明，HBTs 在区分患者和健康对照方面有效，尤其抑制错误（Inhibition Errors）分数效果显著，但无法区分不同类型痴呆，为临床应用提供参考。

　　### 研究背景
随着全球人口老龄化加剧，与年龄相关的神经退行性疾病，如痴呆、帕金森病等的患病率不断上升。痴呆是最常见的神经退行性疾病之一，预计到 2050 年，全球痴呆患者将从目前的 6000 万增加到近 1.4 亿。在这些疾病中，患者不仅存在记忆缺陷，64% - 96% 的人还会出现执行功能下降，包括抑制控制、任务启动、自我监控和目标导向行为等方面的能力减退。执行功能下降通常与额叶损伤有关，也可能由大脑皮层广泛损伤引起。例如，在阿尔茨海默病（AD）中，弥漫性皮质损伤和额叶变性导致执行功能下降，而内侧颞叶损伤主要导致特征性记忆障碍；在路易体痴呆（LBD）中，α - 突触核蛋白（Lewy bodies）的积累也会引发执行功能减退。行为变异型额颞叶痴呆（bvFTD）是额颞叶痴呆（FTD）中最常见的亚型，其额叶退化明显，导致语言和行为改变，尤其是抑制功能特别容易受损。此外，帕金森病（PD）、运动神经元病（MND）、多发性硬化症（MS）、亨廷顿病（HD）等神经退行性疾病，以及人类免疫缺陷病毒（HIV）感染、朊病毒病等导致的进行性神经系统变化，还有未达到痴呆诊断标准的轻度认知障碍（MCI）患者，都可能出现执行功能下降。

准确检测执行功能障碍对于识别需要日常生活支持和监督的患者至关重要，特别是对于存在抑制障碍的患者，干预措施可以减少他们从事有害行为的可能性。此外，检测执行功能障碍还有助于区分不同类型的痴呆，从而实现更有针对性的干预、教育、管理和规划，提高患者的整体护理质量和治疗效果。

海灵和布里克斯顿测试（HBTs）是评估抑制控制的常用执行功能测试，包括海灵测试（Hayling Test，又称海灵句子完成测试）和布里克斯顿测试（Brixton Test，又称布里克斯顿空间感知测试），可测量语言和非语言方面的执行功能，且便于床边操作，适用于广泛人群。然而，HBTs 在检测痴呆、神经退行性疾病和 MCI 相关认知衰退方面的有效性尚未得到综合评估，能否通过特定分数区分不同类型痴呆也有待研究。

研究方法

本研究遵循系统评价和荟萃分析的首选报告项目（PRISMA）指南，并在国际前瞻性系统评价登记册（PROSPERO CRD42023407342）注册。研究人员检索了 PsycINFO、EMBASE、MEDLINE、PubMed 和 Scopus 数据库中 1990 年至 2024 年 1 月 23 日期间发表的研究，这些研究比较了 40 岁及以上中老年人（包括患有痴呆、神经退行性疾病或 MCI 的患者和认知健康的对照组）在 HBTs 上的表现。同时，通过检查相关研究和会议记录的参考文献列表，以及使用 Scopus 和 Google Scholar 数据库进行引文检索，以确保全面收集相关研究。

纳入研究需满足以下标准：报告海灵和 / 或布里克斯顿测试分数；纳入成年样本（平均年龄 + 1 标准差 > 39 岁），其中一组被诊断患有与进行性认知衰退相关的疾病（如 PD、MND、HD、MS、HIV、朊病毒病、AD、bvFTD、LBD、SD 或 MCI），另一组为认知健康对照组；包含能够计算 Hedges’ g 效应量的数据（如均值、标准差、Cohen's d、t 检验、F 检验、精确 p 值和部分 eta 平方）；以英文或意大利文发表在同行评审期刊上。不符合以下条件的研究将被排除：HBTs 用于诊断疾病（以避免标准污染）；为病例研究；作者无法提供所需数据、无法联系或未回复邮件；样本重叠或数据独立性无法保证。

研究人员使用标准化模板从每项研究中提取数据，包括研究细节、疾病类型、对照组信息、招募来源、参与者选择、研究选择标准、人口统计学细节、认知筛查分数以及 HBTs 分数等。对于多次评估的参与者，记录基线或预处理分数。使用 Hozo 等人（2005）推荐的方法，根据中位数和 / 或范围估计人口统计学数据和测试分数的均值和标准差。对于提供不适用本荟萃分析的亚组数据的研究，也采用该方法进行合并。

为评估纳入研究的偏倚风险，研究人员使用了 Foran 等人（2021）的偏倚风险工具，该工具基于诊断准确性研究质量评估 - 2（QUADAS - 2）改编，专门用于评估使用认知测量方法研究神经退行性疾病患者的研究中是否存在偏倚。低偏倚风险的研究需满足三个领域的标准：抽样（疾病组随机或连续招募，明确招募来源和人口统计学变量，或对照组与疾病组匹配）；诊断验证（使用已发表的参考标准诊断痴呆、进行性认知衰退相关疾病或 MCI，且对照组通过认知筛查客观评估为认知健康）；损耗（样本量保持不变，或作者对参与者数量减少作出解释）。研究被分为低偏倚风险、中等偏倚风险和高 / 未知偏倚风险三类。

数据分析使用 IBM SPSS Statistics 27 和 Comprehensive Meta - Analysis 软件（CMA Version 4）。通过随机效应模型计算 Hedges’ g 效应量，以研究疾病组和认知健康对照组在 HBTs 分数上的差异，并生成森林图。效应量的大小根据 Hedges’ g 值判断，g = 0.2、0.5、0.8、2.0 和 4.0 分别表示小、中、大、非常大和极大效应。使用 Q 统计量、Tau²（τ）和 I²评估研究间的异质性。此外，进行亚组分析以探讨研究偏倚风险的影响，并通过元回归研究患者年龄、性别、教育程度、疾病持续时间和严重程度对 HBTs 分数效应量的影响。使用 Duval 和 Tweedie（2000）的修剪和填充方法评估发表偏倚。

研究结果

文献检索共获得 2734 项研究，其中 1215 项为重复研究。经过标题和摘要筛选，排除 1201 项记录，剩余 318 项进行全文审查，最终排除 272 项不符合纳入标准的研究。通过补充检索，又确定了 4 项符合条件的研究。与 35 位作者联系获取数据或澄清研究内容，其中 17 位未回复。最终纳入 50 项研究，包括 1739 名患有痴呆、进行性认知衰退相关疾病或 MCI 的患者（疾病组）和 2166 名认知健康的对照组。

疾病组平均年龄显著高于对照组（66 岁 vs. 65 岁），男性比例更高（55% vs. 43%），教育程度更低（12 年 vs. 13 年）。疾病组的认知筛查分数显著低于对照组，如简易精神状态检查表（MMSE）平均分数虽高于认知障碍推荐临界值，但 Addenbrooke 认知检查（ACE）平均分数处于受损范围。大多数患者通过专科或门诊诊所招募，对照组主要来自社区。海灵测试（）是最常报告的测试，其次是布里克斯顿测试（），同时报告两项测试（HBTs；）的研究较少。抑制错误（）是最常报告的分数，其他分数依次为抑制反应时间（Inhibition RT，）、自动反应时间（Automatic RT，）、布里克斯顿错误（Brixton Errors，）和 B - A 反应时间（B - A RT，）。最常见的诊断是 PD（），其次是 AD（）、bvFTD（）、MND（）、MCI（）等。

研究偏倚风险分析显示，30% 的纳入研究被归类为低偏倚风险，4% 为中等偏倚风险，66% 为高或未知偏倚风险。许多研究的优点是使用已发表的参考标准诊断疾病和进行认知筛查以纳入健康对照，但大多数研究由于缺乏随机或连续招募，采用便利抽样，导致偏倚风险较高。

对于所有疾病（合并）组，HBTs 的 5 个分数（抑制错误、抑制反应时间、自动反应时间、B - A 反应时间和布里克斯顿错误）均显示出疾病组与认知健康对照组之间的显著差异。抑制错误、自动反应时间和布里克斯顿错误的效应量较大，抑制反应时间为中等效应量，B - A 反应时间为小效应量。所有效应量均为负值且具有统计学意义，表明疾病组在 HBTs 上的得分低于对照组。所有分数的预测区间较宽，表明研究间效应存在差异，部分疾病组患者的表现与对照组相似。所有 5 个分数均存在显著异质性，即使去除部分异常值研究，异质性仍然存在。

在痴呆（合并）组中，所有分数的效应量也均为负值且具有统计学意义，表明痴呆组在 HBTs 上的表现明显差于对照组。抑制错误和自动反应时间是最能区分痴呆患者与对照组的分数，效应量较大，其次是抑制反应时间、B - A 反应时间和布里克斯顿错误。不同痴呆类型在 HBTs 上的表现存在差异，但去除异常值研究并仅分析低偏倚风险研究后，AD 和 bvFTD 等痴呆类型在大多数分数上的差异不显著。例如，在抑制错误分数上，虽然 bvFTD 的得分比其他痴呆类型差，但与 AD 的差异不明显；在其他分数上，各痴呆类型的点估计和置信区间也存在重叠。

亚组分析表明，研究偏倚风险对部分分数的异质性有影响。在所有疾病（合并）组中，低偏倚风险研究的效应量小于中高 / 未知偏倚风险研究，但仍为中等至大效应。在痴呆（合并）组中，偏倚风险亚组分析解释了抑制错误、抑制反应时间和 B - A 反应时间的部分变异，低偏倚风险研究的效应量在数值上更小，但各分数的点估计和置信区间在低偏倚风险和中高 / 未知偏倚风险研究中仍有重叠。

元回归分析发现，年龄、性别、教育程度和疾病持续时间对 PD 和 AD 组在抑制错误分数上的表现没有显著影响。然而，由于研究数量不足，无法对其他疾病或 HBTs 分数的变异来源进行研究。此外，大多数研究未统一报告疾病持续时间、严重程度、受影响的脑区和萎缩程度等变量，因此无法对这些因素进行分析。

在 PD 和 AD 中，抑制错误是最常报告的 HBTs 分数，对其进行发表偏倚评估发现，漏斗图不对称，PD 和 AD 分别插入了 1 项和 3 项缺失研究，表明发表偏倚可能夸大了这些疾病中抑制错误的效应量。

研究结论

本荟萃分析表明，海灵测试中的抑制错误分数在检测中老年人多种进行性疾病相关的认知衰退方面特别有效。在痴呆检测中，海灵测试的自动反应时间和抑制错误分数都非常有效。然而，不同类型痴呆患者在 HBTs 上的表现相似，没有一种分数类型能够可靠地区分 AD 和 bvFTD 等痴呆类型，这与临床观察到的 AD 和 bvFTD 之间的重叠现象一致，也支持了单一认知测量不足以区分这两种痴呆类型的观点。

研究存在一定局限性，如数据可用性有限，并非所有分数和疾病都有同等报告；方法学上，标题和摘要筛选阶段仅 10% 的研究进行了双评，且作者回复率低，导致部分相关研究被排除；此外，未进行多变量荟萃分析，可能影响对痴呆组间差异的准确检测，且疾病组和对照组在年龄和教育程度上的差异可能影响效应量估计，同时存在发表偏倚。

未来研究应聚焦于通过认知评估难以区分的痴呆类型（如 AD 和 bvFTD）的 HBTs 分数研究，研究对象应满足相应诊断标准且处于疾病早期，样本量需足够大以检测小到中等效应。同时，可更新数据集，增加独立评审人员参与筛选、偏倚风险评估和数据录入，提高研究结果的可信度，并进行多变量荟萃分析，以确定 HBTs 分数的异质性是否可归因于痴呆类型。

研究方法

研究结果

研究结论

热点排行

新闻专题