美国两大种族多样化队列的认知数据协调化研究:提升认知老化种族差异驱动因素识别精度

【字体: 时间:2025年09月18日 来源:Alzheimer's & Dementia: Behavior & Socioeconomics of Aging

编辑推荐:

  本研究通过验证性因子分析(CFA)成功协调了美国健康与退休研究(HRS)和卒中地理与种族差异原因研究(REGARDS)两大种族多样化队列的认知功能数据,构建了具有良好效度的通用及领域特异性(记忆、语言、定向)认知因子评分,为深入探究认知老化的种族差异及其驱动因素提供了强有力的方法学基础和大型数据池。

  

引言

在美国,黑人和西班牙裔个体相较于其他种族和族裔群体,面临最高的阿尔茨海默病(AD)及其相关痴呆(ADRD)风险。认知功能受损是AD/ADRD的一个标志性特征。然而,美国大多数认知老化研究以白人老年人为中心,导致对其他种族身份的老年人认知功能差异的原因研究不足。尽管美国种族和族裔多样性日益增加,老年人口比例不断上升,但缺乏具有足够种族多样性和认知功能评估的国家数据,是推动认知老化中种族和民族差异理解的最大障碍。个体队列即使对黑人个体进行了过度抽样,也往往包含太少的黑人受访者,无法提供关于黑人成年人认知功能下降风险驱动因素或差异决定因素的精确信息。研究间关于种族、民族与认知老化风险因素之间关联的不一致可能源于方法学原因,例如不同的抽样策略、地区变异性以及使用不同的认知测试。利用来自不同地理区域代表性样本的大规模研究进行统计协调,并考虑项目功能差异(DIF),以获得同质化的认知评分,对于澄清风险因素如何影响AD/ADRD种族和民族差异尤其相关。

研究方法

数据来源

健康与退休研究(HRS)是一项基于美国的纵向队列研究,对象为最初非机构化的51岁及以上成年人及其任何年龄的配偶。该队列通过面对面和电话调查定期收集与老龄化结果相关的财务、社会和身体健康信息。这个代表美国本土48州的全国性队列对佛罗里达州以及少数民族居民比例较高的社区进行了过度抽样。核心调查数据每两年收集一次,从1992年开始。本研究使用了2010年HRS核心数据,数据收集时间在2010年2月至2011年11月之间。所有参与者提供了知情同意,并通过密歇根大学获得了机构审查委员会(IRB)的批准。

REGARDS(卒中地理和种族差异原因研究)是一项纵向队列研究,对象为居住在美国东南部的非西班牙裔非洲裔美国人和白人成年人,参与者在2003年至2007年间招募。参与者最初通过邮件随机抽样招募,然后进行基线面对面调查。REGARDS访谈员在基线时询问参与者的人口统计、社会、心理和身体健康状况,并每6个月进行一次随访。本研究中包含的认知测试电池最初在2006年至2009年的随访电话中实施,并于2009年3月同步纳入每18个月的随访电话中。选择的REGARDS认知测试时间是为了与HRS保持可比性,HRS中所有纳入的参与者都在2010-2011年 responded to cognitive tests。纳入的REGARDS数据来自2009年3月至2013年12月31日期间收集的数据。所有REGARDS参与者均提供了知情同意,并在所有参与机构获得了IRB批准。

参与者

来自HRS的分析样本包括在2010年核心访谈时未报告患有阿尔茨海默病或痴呆症诊断、年满47岁及以上并以英语完成访谈的参与者。为了与REGARDS队列(47岁及以上)最大限度地可比,在HRS中,我们使用了47岁的年龄截止点(排除了525名47岁以下者),这只适用于参与者的配偶,因为主要队列只包括50岁及以上的个体。对于统计协调过程,我们排除了使用代理受访者完成HRS调查的个体,因为这些代理没有完成与直接受访者相同的认知测试电池。我们还排除了所有感兴趣的认知测试都缺失的参与者,但包括了所有剩余的参与者,无论访谈是通过电话还是面对面进行。来自HRS的最终分析样本包括18,422名参与者。

来自REGARDS的分析样本包括在进入队列基线时(2003-2007年)无认知障碍的参与者。根据研究设计,参与者年龄在47岁及以上,通过电话 responded to cognitive tests,没有代理受访者,并且以英语接受访谈。来自REGARDS的最终分析样本包括19,690名参与者。

测量与预统计协调

本项目使用的预统计协调方法建立在类似努力的基础上,该努力使用了 harmonized Cognitive Assessment Protocol (HCAP) 的数据,该协议有助于在不同文化、教育、社会、经济和政治背景的老年人群中跨国家比较认知结果。我们根据先前文献,在咨询了一组专门研究认知老化和文化神经心理学的神经心理学家团队后,将认知测试分配到领域(记忆、语言和定向)。然后,对于每个队列中的每个认知测试,我们使用公开可用的材料收集了所有关于测试措辞、评分、编码和管理的相关细节。基于我们对跨队列测量可比性的预统计评估,我们确定了哪些认知测试是每个队列独有的(“非链接”),哪些在队列之间是等效的(“链接”),并进行横断面评估。

统计分析

首先,我们使用描述性统计(连续变量的均值和标准差(SD),分类变量的频率和百分比)来按年龄、性别、种族、民族、教育程度和认知测试管理方式对样本进行表征。

接下来,遵循先前使用HCAP数据的方法,我们实施了验证性因子分析(CFA)模型来推导统计协调的因子评分,以表征一般认知功能和按领域划分的功能。首先,我们在HRS中运行一个CFA模型,并将模型中的参数(因子载荷和截距/阈值)保存在一个项目库中。因子载荷表示每个项目与因子中其他项目的相关程度,载荷高于0.30表示项目与特质之间存在有意义的关系。阈值(用于分类项目)和截距(用于连续项目)表示潜在因子得分,对于该得分,以该准确性或更高准确性响应的可能性为50%。其次,我们使用REGARDS数据运行一个CFA模型,其中我们将链接项目的参数约束为在HRS和REGARDS之间等效。对于每个单独队列中的模型,我们评估了模型拟合度。如果比较拟合指数(CFI)值≥0.90,近似均方根误差(RMSEA)值≤0.08,标准化均方根残差(SRMR)值≤0.08,我们则认为每个模型具有足够的拟合度,这是基于先前的工作。我们移除了两个项目(REGARDS中的州和城市命名) due to low standardized factor loadings (<0.20)。由于初始模型拟合较差,我们添加了理论上有关系的变量之间的残差相关性:即时单词回忆试验彼此之间(例如,第一次试验与第二次和第三次)以及与延迟回忆;REGARDS中的字母流畅性与动物流畅性。找到拟合良好的模型后,我们合并了数据集,并运行了第三个也是最终的CFA,将所有参数固定为等于在单个队列CFA模型中估计的参数。

接下来,我们分别从全局评分中估计了领域特异性评分。为此,我们重复了上述过程,只是我们估计了一个具有三个因子的CFA模型,一个用于记忆领域,一个用于定向领域,一个用于语言领域。与一般认知功能模型一样,我们根据需要添加了变量之间的残差相关性以改善模型拟合(仅在REGARDS中,即时回忆试验彼此之间以及与延迟回忆)。

我们通过队列评估了四个链接项目的DIF。为此,我们使用了基于记录的Mplus代码的多指标多因(MIMIC)模型,调整了年龄和性别。如果测试项目与研究之间的直接路径的最终比值比或指数化标准化β系数超出0.5–1.66的范围,我们则将该项目分类为具有DIF。然后我们进行了DIF调整的分析,考虑了那些效应大小超出该范围的变量。如果原始评分与DIF调整后评分之间的差异对于10%或更多的样本>0.3 SD,则认为DIF是显著的。随后,我们以相同方式按访谈模式(面对面/电话)评估了DIF。

然后,我们通过创建图表检查一般评分和领域评分的边际信度,该图表检查了因子得分(在x轴上)与信度(在y轴上)的关系(按队列),其中每个参与者的信度计算为1减去因子得分的标准误的平方。

在检查均匀DIF并进行必要调整的分析之后,所得的一般因子得分表示每个参与者的整体认知功能水平,这种方式在队列之间具有可比性。因子得分被缩放为在HRS和REGARDS的合并样本中均值为0,标准差为1。

我们通过检查协调后的认知因子得分(一般认知得分和按领域得分)与已知与认知功能相关的变量(包括连续年龄、性别(男性和女性)和教育程度)之间的关系来评估所得因子得分的效标效度。这种建立效标效度的方法遵循其他几个关键协调项目的工作。我们使用线性回归来量化这些变量中的每一个与认知得分之间的关系,并在每个模型中将其他人口统计学变量作为协变量添加。最后,我们按队列和在合并队列中在黑参与者中重复了这些效标效度分析,以确定增加的样本量是否提高了统计精度。

我们使用R版本4.3.2进行描述性分析,并使用Mplus进行验证性因子分析。所有Mplus代码可在补充文件1中找到。

研究结果

参与者特征如表1所示。在分析样本的38,112名参与者中,48%来自HRS(n=18,422),52%来自REGARDS(n=19,690)。参与者的合并平均年龄(m=67.7岁)和性别分布(58%女性)在队列之间相似。大多数参与者是白人(68%)和非西班牙裔(97%),REGARDS的黑人/非洲裔美国人参与者(36%)多于HRS(21%)。教育程度因队列而异,HRS队列中50%的人拥有一些大学及以上学历,而REGARDS队列中67%的人如此。分析样本中的大多数HRS参与者是面对面访谈(67%),其余是通过电话访谈(33%)。所有REGARDS参与者都是通过电话访谈的。

用于估计一般认知的CFA模型拟合统计如表2所示。添加残差相关性后,模型拟合良好。在HRS中,模型具有普遍良好的拟合统计量,包括CFI=0.97,RMSEA=0.03和SRMR=0.06。所有值都超过了我们在分析规划阶段确定的临界点。同样,在REGARDS中,CFA模型具有足够的拟合统计量,包括CFI=0.90,RMSEA=0.07和SRMR=0.08。在三因子领域解决方案中,因子之间的相关性如下:记忆与语言(0.636),定向与语言(0.590),记忆与定向(0.603)。

在按研究检查DIF的MIMIC模型中,只有星期几的DIF调整估计值超出了临界范围(一般认知功能得分中的OR=1.96;领域得分中的OR=3.47)。然后我们重新估计了一般和领域特异性认知功能的CFA模型,调整了星期几的DIF,并确定了有多少参与者的调整后因子得分与原始得分差异超过0.30 SD。对于一般认知功能,这发生在n=130个体中,占总样本的0.34%。对于领域特异性认知功能,这发生在n=646个体中,占总样本的1.70%。因为这低于先前确定的10%临界值,我们认为没有显著的DIF,并继续使用未调整的认知功能得分。

在按访谈模式检查DIF的MIMIC模型中,没有变量的DIF调整估计值超出临界范围。因此,我们认为没有按访谈模式存在的显著DIF,并继续使用未针对访谈模式调整的认知功能得分。

边际信度图在补充图S1-S4中提供。REGARDS因子得分的信度略高于HRS,特别是对于那些得分高于平均值的参与者。此外,定向因子得分的信度较低,所有参与者都低于普遍接受的标准,尤其是在REGARDS中。

检查所得协调评分效标效度的分析详见表3。在线性回归分析中,共同调整所有相关协变量(年龄、性别和教育程度)后,年龄较大与较低的平均一般认知功能得分相关(β=-0.03每年,95%置信区间[CI]=-0.03, -0.03)。年龄较大也与较低的平均记忆(β=-0.03, 95% CI=-0.03, -0.03)、语言(β=-0.03, 95% CI=-0.03, -0.03)和定向得分(β=-0.02, 95% CI=-0.02, -0.02)相关。年龄与认知得分之间的关系在HRS和REGARDS队列中相似。在合并分析中,女性的协调认知得分高于男性,特别是在记忆(β=0.29, 95% CI=0.28, 0.31)和一般认知(β=0.22, 95% CI=0.20, 0.23)方面。性别与认知得分之间关联的幅度在REGARDS参与者中大于HRS参与者。最后,较高的教育程度与较高的认知功能得分相关,在合并样本中与语言得分的关联最大(大学毕业生与低于高中教育相比:β=0.79, 95% CI=0.77, 0.81)。教育与认知得分之间关联的幅度在HRS参与者中大于REGARDS参与者。

检查黑人/非洲裔美国人参与者合并样本精度变化的分析如表4所示。所有检查变量(年龄、性别、学位)与一般认知得分之间关系的估计精度在合并样本(n=10,922)中高于单独的HRS(n=3,823)和REGARDS(n=7,099)样本。例如,性别与一般认知得分之间关系的CI在合并样本中更窄(β=0.27, 95% CI=0.24, 0.30;SE=0.017),而与HRS黑人/非洲裔美国人参与者(β=0.14, 95% CI=0.08, 0.20;SE=0.029)或REGARDS黑人/非洲裔美国人参与者(β=0.32, 95% CI=0.28, 0.36;SE=0.021)分开相比。

讨论

我们使用统计协调方法在美国的两个队列HRS和REGARDS中生成了一般、记忆、定向和语言领域的认知评分,以促进对少数群体认知功能的进一步调查。因子模型分析发现,在实施残差相关性后模型拟合良好,所得因子得分通过与已知与认知功能相关的因素的相关性证明了效标效度。这些发现产生了一个近40,000名成年人的合并样本,其优势在于与每个单独样本相比,黑人/非洲裔美国人参与者的精度提高了。我们使用了两个由美国国立卫生研究院(NIH)资助的、具有卓越种族和民族多样性以及认知评估的成熟队列。使用具有DIF的统计协调,我们能够评估跨研究的认知测试在一般和特定认知领域表征上的协调性。协调后的数据集将为未来在合并样本中研究跨种族的认知老化可改变风险因素开辟道路。这项工作尤其关键,因为AD/ADRD是少数民族(如黑人群体的一个突出且日益增长的公共卫生问题。

我们的结果与日益增长的文献一致并对其进行了补充,这些文献证明了以方法学上合理的方式通过统计协调跨队列研究汇集认知功能测量的可行性。特别是,我们分析方法的许多方面都模仿了一项严格的统计协调研究,Gross等人同样报告说他们的许多CFA具有良好的拟合度,并发现了与其美国队列的方向和幅度相当的效标效度回归结果。然而,与许多稳健的统计协调研究一样,Gross等人专注于跨国比较,虽然具有关键的普遍健康重要性,但与我们的种族和民族多样化的美国样本有不同的考虑和潜在应用。我们扩展了两个美国的协调工作,将HRS(一个常用且成熟的美国队列)纳入其中。因此,我们的研究为在美国不同的种族/民族人口中推导协调的认知功能测量提供了新的见解,用于研究认知功能中关键差异。

这项研究有几个优势。首先,本研究提供了一个可重复的过程,包括公开可用的R和Mplus代码(见补充材料)以及预统计协调分析,供未来的协调研究和使用所得协调评分使用。其次,该方法在一个大型、多样化的美国合并样本中生成了具有效标效度的评分,该样本具有足够的种族多样性来研究认知功能差异及其决定因素。这是对认知功能文献的一个新颖贡献。

然而,也有一些局限性需要考虑。虽然我们在神经心理学家的指导下进行了彻底的预统计协调过程,但在测量的跨队列可比性方面仍然存在一些限制。首先,所有REGARDS访谈都是通过电话进行的,但只有27%的HRS访谈是通过电话进行的,其余是面对面的。先前的工作发现,通过电话应答的人与面对面的人在认知测试表现上存在微小差异,特别是在单词回忆评估中。尽管我们在链接项目中没有发现按测试模式存在的DIF证据,但按模式可能仍然存在测试表现的微小差异。其次,记忆领域只有一个链接项目,即时单词回忆,如果该项目不能真正作为链接项目执行,可能会限制记忆因子的有效性。此外,REGARDS中的单个即时单词回忆列表与HRS中的四个即时单词回忆列表不同,尽管有一些重叠的单词(butter, engine, letter)。这种差异的出现是因为HRS管理了Consortium to Establish a Registry for Alzheimer's Disease (CERAD)即时单词回忆列表的变体,以最小化学习效应。虽然单词列表在具体单词上有所不同,但所有列表类似地包含10个常用的一到两个音节的单词(来自Thorndike和Lorge的A和AA评级),并且先前一项协调跨不同管理语言的CERAD即时回忆测试的研究没有观察到在不同语言中具有不同单词的该项目的DIF。因此,我们相信这个链接项目和整体记忆因子是有效的。值得注意的是,由于模型过度识别,我们无法对记忆领域评分进行边际信度分析。此外,本文提供的效标验证分析仅限于检查协调因子得分与已知与认知功能相关的变量(年龄、性别和教育)之间的相关性,这在文献中很常见。需要更多的工作来评估这些或类似协调认知评分与其他认知功能指标(例如,生物标志物、临床诊断)之间的关系。此外,为了实现验证性因子分析模型的足够模型拟合,我们添加了单个测试项目之间的残差相关性。虽然这些结构不影响我们结果的有效性,但它们降低了这些模型的普遍性。我们还注意到,使用三因子模型来估计领域因子得分可能会提高因子之间的相关性,与按Wright规则分别建模每个领域相比。此外,所得认知评分的使用者应该意识到,与个体队列中的认知功能测量相比,II型错误的风险增加,特别是因为我们的协调评分依赖于单个认知测试项目的使用。最后,由于使用代理应答调查的个体没有完成与未使用代理者相同的认知测试电池,这些可能认知受损最严重的个体未被纳入本分析。然而,未来使用这些协调因子得分研究认知功能差异的分析可以利用先前的工作,该工作提供了在HRS中汇集代理和非代理认知访谈的方法。

我们在此提出的统计协调方法为未来实施认知协调和使用协调评分按种族和民族检查认知功能差异提供了关键基础。我们包括了详细的预统计考虑和稳健的代码,以促进我们分析的复制。由HRS(N=40,000+)和REGARDS(N=30,000+)产生的协调认知数据将产生一个前所未有的大规模研究( resulting N=70,000+),使用来自不同地理区域的代表性样本,这是先前工作所缺乏的。所得协调评分将允许未来在全国水平的样本上进行认知健康研究,这些样本代表了美国的种族和民族多样性。虽然建议进行额外的工作,包括纵向数据、合并认知功能数据代理受访者以及扩展分析以检查外部效度,以最大化后续分析中的潜在效用,但这些方法代表了利用现有数据源进行认知功能中必要的种族和民族差异研究的一大步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号