跨国大规模调查中认知测量的挑战与突破：HRS-INS和HCAP的经验与启示

《The Journals of Gerontology: Series B》：The measurement of cognition in large-scale cross-national surveys: Lessons from the Health and Retirement International Network of Studies and the Harmonized Cognitive Assessment Protocol

【字体：大中小】 时间：2025年10月22日 来源：The Journals of Gerontology: Series B 4.8

编辑推荐：

　　本文针对全球老龄化背景下认知功能测量工具在跨国比较中的有效性难题，系统总结了健康与退休国际研究网络(HRS-INS)和统一认知评估协议(HCAP)的实践经验。研究团队通过专家研讨和文献回顾，提出了确保测量工具在高中低收入国家均具可行性、保持跨时跨地一致性、采用更全面测试组合三大核心原则，为提升跨国老龄化研究中认知评估的可比性和效度提供了重要方法论指导。

随着全球人口老龄化进程加速，痴呆患病率预计到2050年将增长两倍，其中大多数病例将集中在低收入和中等收入国家(LMICs)。这一严峻趋势凸显了在全球老龄化研究中开发稳健认知测量工具的迫切需求。然而，现有认知研究大多局限于高收入国家，其研究结论能否推广到不同文化、教育和语言背景的多样化人群中存在严重疑问。当认知测试从临床环境转移到大规模人口调查时，面临着独特的挑战：如何在有限时间内平衡测量精度与可行性？如何确保测试工具在不同文化背景下具有可比性？这些问题成为制约全球认知老化研究发展的关键瓶颈。

健康与退休研究(HRS)及其国际合作伙伴网络(HRS-INS)在跨国认知评估领域进行了开创性探索，最近通过统一认知评估协议(HCAP)这一创新性子研究，为解决这些难题提供了宝贵经验。本研究系统总结了在HRS-INS和HCAP中开发和实施跨国认知评估的关键经验教训，为未来研究提供方法论指导。

研究人员通过组织关键利益相关者和多学科专家的系列会议（2022-2025年），结合文献回顾，提炼出了三大核心考量因素：测量工具必须同时适用于高收入国家和LMICs；保持跨研究和跨时间点的一致性；更全面、更长的测试组合能提供更好的测量精度。这些原则看似简单，但在实际应用中常常相互冲突，需要研究者根据具体研究目标进行权衡。

在技术方法层面，本研究主要基于对HRS-INS和HCAP现有数据的系统分析，包括对14个HRS-INS核心研究和多个HCAP子研究的认知测试项目进行一致性评估。研究团队采用了项目反应理论(IRT)方法进行统计协调，通过共同“锚定”项目实现跨研究的认知功能可比性。同时，通过专家共识法确定了认知测试文化适应性的最佳实践原则。

核心HRS-INS简短测试组合的经验

对核心HRS-INS研究的分析显示，仅有时间定向和词语回忆测试在所有14个研究中保持一致实施。语言测试中，物体命名（10/14研究）和动物命名（8/14研究）相对一致，但具体实施的物体名称差异可能影响可比性。执行功能领域最常用的连续减7测试（12/14研究）在低计算能力环境中面临挑战。空间视觉功能评估仅在少数研究中实施。

研究指出，许多HRS-INS项目为二元评分（正确/错误），在人群代表性样本中容易产生天花板效应，仅对识别严重认知损伤有效。相比之下，连续评分测试（如词语回忆、动物命名）能提供更广泛的认知功能信息，既可用于痴呆识别，也可用于检测轻微损伤或随时间推移的认知下降。现有跨国比较研究主要依赖词语回忆和动物命名任务，但这些仅为记忆测量，不能代表一般认知功能。

HCAP长时测试组合的启示

与核心HRS-INS相比，约1小时的HCAP测试组合包含了更一致的认知测试项目，对记忆、执行功能和语言领域有更全面的覆盖。语言领域有最多项目在所有或几乎所有HCAP子研究中实施，但许多二元评分项目仍存在反应变异性低的问题。记忆领域有最多高质量项目跨研究一致实施，包括CERAD词语回忆（3个项目）、两个故事回忆测试（5个项目）和延迟结构实践。

执行功能领域跨研究共同项目较少，可能与该领域项目对文化/教育背景的敏感性有关。尽管HCAP测试组合比核心HRS-INS长得多，但空间视觉功能评估仍然简短，这凸显了在关注认知子领域测量时全面内容覆盖的重要性。潜在变量模型需要至少三个指标才能进行适当表征，指标过少会给特定领域的测量带来挑战。

HCAP的一个重要创新是加入了知情者评估，由亲友提供受访者认知和身体功能信息。证据表明，结合认知测试和知情者报告能提高痴呆筛查的准确性。在开发基于HCAP的痴呆分类算法时，知情者报告数据在应用《精神障碍诊断与统计手册》(DSM)标准方面发挥重要作用。

认知测试实施的关键考量

除了测试内容选择外，认知测试的实施细节对确保有效性和可比性同样关键。文化和语言适应应是一个持续过程，需要在新环境中进行试点测试，参与者应尽可能代表目标人群的多样性。数据监测也至关重要，如LASI-DAD研究发现命名测试中的“仙人掌”项目在印度不同地区识别率差异显著，基于这一发现，研究团队在第二轮数据收集中将其改为“树”。

缺失数据处理也需要特别关注。认知测试中“不知道”通常被记录为错误（0分），而“拒绝”等缺失代码则需要进行插补处理。这种区分对数据解释和评分至关重要，需要培训访谈员正确使用。

测试环境特征（如感觉障碍、身体损伤）和知情者特征也可能影响测试结果，收集这些辅助信息有助于进行事后校正或插补，提高数据质量。此外，数据收集模式（面对面、电话、网络）的差异也会影响认知测试结果，需要采用校准样本或随机分配方法来估计和校正模式效应。

对数据用户的启示

本研究的结果对跨国认知数据的适当分析具有重要启示。数据用户需要关注不仅测试内容本身，还有实施程序、缺失数据处理以及可能影响认知测试解释的文化差异。不同测试组合的特性（如长度、难度）可能影响研究结果，例如，基于包含大量简单项目的测试组合的分析可能在轻度损伤关联方面得出无效结论。

研究设计决策应基于最佳分析实践，这些决策应指导后续分析如何处理练习效应或协调具有重叠但不同测试组合的研究中的认知功能。数据用户理解现有数据的局限性及其对后续分析的影响至关重要。

研究结论与展望

尽管HRS-INS及其HCAP子研究在跨国认知数据收集中面临挑战，但这些研究为关注认知老化的研究者提供了重要宝贵资源。通过协调数据收集工作获得的经验教训，可用于改进未来HRS-INS和HCAP研究的设计，为广泛跨国认知老化研究提供方法学指导，并帮助数据用户理解现有数据的局限性和最佳使用实践。

认知测试设计和实施的选择需要权衡多种因素，包括跨研究和跨时间点的一致性、可行性和可接受性、测试组合的全面性和长度，以及资源限制。虽然没有单一正确方法平衡这些因素，但HRS-INS和HCAP实施认知测试的经验教训提供了不同选择影响的见解，并强调了关注数据收集所有组成部分的重要性。

未来研究应继续探索计算机自适应测试等现代实施方式如何帮助缓解这些挑战，实现对痴呆和认知功能的精确估计。同时，需要更多研究来更好地理解跨国背景下知情者数据分析的最佳实践，以及如何将这些数据纳入痴呆算法。随着HRS-INS和HCAP网络的不断扩展，持续从这些数据收集工作中学习经验，更新和完善跨国认知评估协议，将为全球认知老化研究提供更加坚实的基础。

热点排行