Gatos临床测验问卷中文版的信效度验证及其在重度痴呆患者评估中的意义

《Frontiers in Psychology》：Reliability and validity of the Chinese version of the Gatos Clinical Test questionnaire in patients with severe dementia

【字体：大中小】 时间：2025年10月21日 来源：Frontiers in Psychology 2.9

编辑推荐：

　　本研究通过跨文化调适，验证了Gatos临床测验问卷（GCT）中文版在重度痴呆患者（MMSE≤2）中的信度与效度。结果显示该问卷具有14个条目、三维度结构（自主性/警觉性、直觉/认知、躯体运动功能/睡眠），累积方差贡献率65.513%，Cronbach's α系数0.898，重测信度0.959，评定者间信度0.986，内容效度指数（S-CVI）0.91，证实其可作为评估中国重度痴呆患者生存潜力与基础技能保留的有效工具。

引言

痴呆是一组导致进行性认知衰退和日常生活活动能力受损的临床综合征。全球范围内每3秒就出现一例新发痴呆病例，预计到2050年患病人数将达到1.39亿。由于痴呆的进行性和不可预测性，患者逐渐陷入植物状态，最终死于肺部感染、营养不良、压疮和全身衰竭等并发症。

鉴于痴呆的不可逆性，患者通常需要护理人员提供全天候的强化护理。长期护理攻击性痴呆患者会导致护理人员疲劳、恐惧和精疲力竭。进行性言语障碍和认知缺陷显著阻碍了患者与护理人员的沟通，护理人员和医疗专业人员发现难以准确识别患者的护理需求。当详尽的护理努力未能有效缓解疾病进展时，护理人员的挫败感会加剧，可能引发对患者的虐待行为（如言语攻击或忽视）和遗弃念头。

值得注意的是，护理人员过度的负面情绪和忽视患者需求及残余生存能力与疾病加速进展显著相关。随着疾病进展，简易精神状态检查（MMSE）和蒙特利尔认知评估（MoCA）等传统认知评估工具表现出“地板效应”，无法准确表征重度痴呆功能损害的特征和演变模式。当前用于评估重度痴呆的工具——包括严重损害量表（SIB）、严重损害量表简版（SIB-S）、严重简易精神状态检查（SMMSE）、严重损害测验（TSI）和严重认知损害概况（SCIP）——主要关注认知领域。这些工具主要针对MMSE得分为0-9的人群，通常需要复杂的多项目管理。某些工具表现出教育偏见和追踪纵向认知变化的敏感性有限。

实际上，尽管晚期痴呆患者认知显著下降，但非语言交流、短期记忆保留、颜色辨别和伤害性知觉等功能能力可能在不同程度上部分保留。然而，需要注意的是，即使是简单的算术任务执行在重度痴呆中也可能严重受损。

因此，为了精确识别重度痴呆患者的疾病进展、残余生存能力和保留的功能潜力，同时减少护理人员的忽视/虐待行为并确保终末期生活质量和尊严，迫切需要实施经过验证的多维评估工具。尽管Gatos临床测验（GCT）问卷显示出前景，但其心理测量特性在中国人群中仍未得到验证。

研究目的

重度痴呆患者在中国受到的关注相对较低，主要原因是他们对常用评估工具的敏感性低，对该群体的不了解往往导致他们被忽视。GCT问卷尚未在中国得到验证，这在一定程度上限制了中国全面了解老年痴呆患者病情进展和认知功能变化的能力。本研究旨在翻译、回译和文化调适英文版GCT问卷，根据我国医学文化背景修订中文版，并评估中文版GCT问卷的信度和效度。通过客观定量指标探讨其在我国重度痴呆患者人群中的适用性，追踪重度痴呆患者的病情变化，评估其生存潜力和维持基本技能的能力，为维持重度痴呆患者的生活质量和实施护理措施提供指导。

方法

设计与参与者

这项前瞻性横断面研究采用便利抽样法，招募了湖州市第三人民医院的276名重度痴呆患者。纳入标准为：由精神科医生通过神经心理学评估和病史回顾根据ICD-10标准确诊为痴呆；MMSE得分为0-2；法定监护人签署知情同意书。排除标准（满足任何一项）：严重听觉/视觉障碍；因骨折或其他躯体状况导致行动受限；共病严重精神障碍；导致面部表情受损的神经系统疾病。

我们收集了所有参与者的社会人口学数据，他们使用简易精神状态检查（MMSE）和中文版Gatos临床测验问卷（GCT）完成评估。为了评估评定者间信度，两名研究人员在没有言语交流的情况下，独立同时逐项对患者进行GCT评估；所有问卷在评估后立即收回。为了进行重测信度分析，随机选择的12名患者子组在一周间隔后使用中文版进行了重复GCT评估。

样本量计算

本验证研究的样本量是根据因子分析推荐的主体与项目比估算的。根据样本量经验法则，量表进行因子分析至少需要每个项目10名受试者。本研究有14个项目，考虑到进一步10%的无效误差，估计样本量为154例。此外，参考探索性因子分析的样本量应至少≥100例，验证性因子分析的样本量应≥200例。为确保稳健的因子结构并获得稳定的参数估计，共发放问卷276份，有效回收276份，有效回收率100%。其中随机抽取126份问卷进行探索性因子分析（EFA），其余150份进行验证性因子分析（CFA）。

招募与测试程序

参与者在2019年1月至2020年5月期间从湖州市第三人民医院老年精神科住院病房连续招募。主治医师初步识别符合重度痴呆临床诊断标准的潜在参与者。然后研究团队接触其法定监护人，提供研究目的和程序的详细信息，并邀请参与。

所有评估均在床边安静、光线充足的房间进行，干扰最小。先进行MMSE评估，然后是GCT问卷。每次评估持续约20-30分钟。为防止疲劳，根据需要提供休息。进行评估的研究人员是训练有素、熟练使用两种工具的研究护士。为确保一致性，使用标准化脚本向参与者及其护理人员介绍和解释每项任务。

研究工具

一般情况问卷

通过文献回顾和专家小组讨论，制定了患者社会人口学特征问卷。该工具捕捉基本人口统计学变量，包括但不限于：姓名、性别、年龄、职业、临床诊断、教育水平、婚姻状况和居住地区。

简易精神状态检查（MMSE）

MMSE是国际公认的全球认知筛查金标准，涵盖六个认知领域的评估。MMSE总分范围0-30分，得分≤27分表示认知障碍。具体而言，得分21-26分为轻度痴呆，10-20分为中度痴呆，≤9分为重度痴呆。

Gatos临床测验（GCT）问卷

GCT问卷由雅典大学、色萨利大学和神经科诊所“Agios Georgios”联合开发，旨在全面评估重度痴呆患者（MMSE得分≤2）。GCT问卷包括两部分：6个一般信息项目，捕捉人口统计学和病理学特征（A. 听力，B. 视力，C. 一般状况，D. 患者行为，E. 面部表情，F. 行走-运动），以及14个特定领域项目，系统评估认知功能、日常生活能力和躯体表现。GCT问卷总分范围0-26分，得分越高表明临床状况越好、生存能力越强、功能潜力保留越多。评分阈值分层如下：0-9.5分（状况差），9.5-18.5分（状况中等），18.5-26分（状况优秀）。心理测量分析证实其具有稳健的信度和效度。值得注意的是，该问卷表现出高特异性和敏感性，能有效区分MMSE得分为0和得分1-2的患者。该工具显示出作为评估晚期痴呆人群生存能力和保留功能能力的有效工具的强大潜力。

流程

问卷的翻译与文化调适

获得原作者Gregory Tsoucalas博士授权后，GCT问卷采用Brislin模型翻译-回译方法进行了严格的翻译和文化调适。首先，两名双语译者（护理科学硕士和英语语言学硕士）独立将英文原版翻译成中文。然后，一位有海外培训经历的临床护理专家通过迭代修订调和两个翻译版本之间的差异，产生确保语义对等和概念保真度的初步中文版。随后，另外两名不熟悉原工具但专攻痴呆研究的双语译者将中文草案独立回译成英文。一位有国际培训背景的护理学者将回译版本与原问卷进行比较，解决歧义，生成合并的英文草案。然后六名以英语为母语的国际学生使用4点Likert量表评估回译版和原问卷的概念一致性，回译一致性率达到92.8%。最后，将回译草案提交给Tsoucalas博士验证概念一致性、语义准确性和文化适当性。发现的任何差异都经过循环重新翻译和重新回译，直到与原工具完全一致。

为确保在中国语境下的文化适当性，招募了十位专家评估问卷的文化适应和内容效度，并对语言上有挑战的项目进行了修订。专家选择标准包括：广泛的专业知识和高学术资格；≥10年老年精神病学临床经验；拥有学士或以上学位并结合中级或以上专业认证。

统计分析

使用SPSS 23.0和AMOS 24.0进行统计分析，统计学显著性设定为p值<0.05。对社会人口学数据应用描述性统计，而项目筛选采用频率分析、独立样本t检验和Pearson相关系数。内容效度使用内容效度指数（CVI）评估。结构效度通过Pearson相关分析、探索性因子分析（EFA）和验证性因子分析（CFA）评估。信度通过Cronbach's α系数、重测信度和评定者间信度确定。

项目分析

项目分布

检查每个项目选项的分布趋势，删除任何选项选择率超过80%的项目。

临界比

计算问卷总分后，对参与者进行降序排列，并分为高分组（前27%）和低分组（后27%）。进行独立样本t检验比较两组间项目水平得分差异。CR值低于3.0的项目在心理测量 refinement 过程中被标记为潜在剔除对象。

相关系数

通过计算每个项目与总分的Pearson相关系数以及项目间的相关系数来评估问卷项目的效度和独立性。当项目-总分相关超过0.4且项目间相关低于0.8时，认为同质性和区分效度令人满意。

效度分析

内容效度

邀请了十位老年精神病学专家评估每个问卷项目与测量目标的相关性。采用4点Likert量表进行项目水平评估，分数定义为：1=“不相关”，2=“弱相关”，3=“中度相关”，4=“高度相关”。内容效度来自专家评分。项目水平内容效度指数（I-CVI）计算为评分3或4的专家人数除以参与专家总数。量表水平内容效度指数（S-CVI）计算为所有I-CVI得分的平均值。根据既定标准，I-CVI≥0.78和S-CVI≥0.90被认为表明量表具有良好的内容效度。

结构效度

结构效度指的是评估工具测量特定对象或变量的准确性和有效性。本研究采用探索性因子分析和验证性因子分析评估结构效度。276名参与者被随机分为两组进行不同分析：126人用于EFA，另外150人用于CFA。因子分析前，进行Kaiser-Meyer-Olkin（KMO）检验和Bartlett球形检验以评估数据是否适合因子分析。KMO值>0.6且Bartlett球形检验p<0.05表明数据适合因子分析。采用主成分分析（PCA）提取公因子，保留累积方差贡献率超过50%的因子。在EFA期间，应用最大方差旋转，剔除因子载荷<0.4的项目。采用CFA评估模型结构与探索性因子结构的一致性，并使用以下指标评估模型拟合度：χ²/df；RMSEA；RMR；CFI；NFI；TLI。χ²/df小于3，RMSEA小于0.08，RMR小于0.05，CFI、NFI和TLI大于0.90的模型被认为是可接受的。

信度分析

内部一致性信度

为检查项目间相关性和问卷的同质性，采用Cronbach's α系数评估项目间的内部一致性。当总体Cronbach's α系数超过0.7时，该工具表现出可接受的信度，值越高表明内部一致性越强。

重测信度

一周后，随机选择12名患者进行重复测试，以评估问卷的重测信度。重测信度系数计算为两次测量之间的Pearson相关系数，值超过0.7表明稳定性令人满意。

评定者间信度

使用Pearson相关系数评估评定者间信度，以量化独立评估者之间的一致性。问卷系数超过0.7表明不同评定者评估结果的变异性最小。

结果

社会人口学特征

正式调查共纳入276名患者，所有问卷均收回，有效回收率100%。该队列包括155例（56.2%）阿尔茨海默病（AD），77例（27.9%）血管性痴呆（VD），33例（12.0%）混合性痴呆（MD）和11例（4.0%）其他痴呆亚型。样本包括125名男性（45.3%）和151名女性（54.7%），年龄范围52至88岁，平均年龄78.34±6.42岁。

项目分析

对中文版GCT问卷的14个项目进行频率分析，显示每个项目的任何单一选项选择率均低于80%。计算总分并排序，前27%分为高分组，后27%分为低分组。独立样本t检验比较两组间项目得分，显示CR范围从6.319到37.331（p<0.01），均超过阈值3.0，因此保留所有项目。项目-总分相关范围从0.487到0.895（均>0.4），表明强同质性。项目间相关范围在0.095到0.841之间，只有项目5和13显示出相对较高的相关系数0.841；所有其他项目间相关均低于0.8，确认了足够的独立性。

效度分析

内容效度

10位专家使用CVI评估了中文版GCT问卷的内容效度。结果显示，五个项目（项目2、3、6、7、8）获得所有专家一致评分为3或4（“中度相关”或“高度相关”）。此外，10个项目达到I-CVI得分≥0.90（即≥9位专家评分为3或4）。中文GCT问卷的I-CVI范围从0.80到1.00，S-CVI为0.91，表明问卷的内容效度良好。

结构效度

探索性因子分析

结果显示KMO=0.877（>0.60），Bartlett球形检验χ²=1004.191（p<0.001），df=91，确认问卷适合进行EFA。采用方差最大正交旋转进行PCA，不限制因子数量。结合碎石图分析，最终提取出三个特征值大于1的公因子，因子载荷范围从0.519到0.902，累积方差贡献率为65.513%。基于这些因子的潜在特征和原英文问卷的维度结构，三个因子命名如下：“自主性/警觉性”（项目1、2、3、4、6；5个项目），“直觉/认知”（项目7、8、9、10、11；5个项目），以及“躯体运动功能/睡眠”（项目5、12、13、14；4个项目）。

验证性因子分析

模型拟合参数值为χ²/df=1.508，RMSEA=0.058，RMR=0.027，CFI=0.966，NFI=0.907，TLI=0.958。因子载荷值范围从0.60到0.91。

信度分析

中文版GCT问卷表现出强的内部一致性，总体Cronbach's α系数为0.898。分量表信度系数为0.901（自主性/警觉性）、0.734（直觉/认知）和0.850（躯体运动功能/睡眠）。重测信度在12名重度痴呆患者中间隔一周进行评估，总体重测信度系数为0.959，分量表系数范围从0.882到0.953。评定者间信度由两名独立研究人员同时评估30名患者进行评估，总体评定者间相关系数为0.986。分量表评定者间系数范围从0.877到0.976，证实了中文GCT问卷所有维度具有优异的评定者间稳定性。

讨论

痴呆是一种不可逆的神经退行性疾病，以认知功能进行性恶化为特征。传统评估工具在纵向追踪重度痴呆认知衰退方面能力有限，无法监测疾病进展和治疗效果，这导致医疗专业人员和护理人员的临床忽视——一个有害的循环。GCT问卷由Gregory Tsoucalas博士及其同事通过对15,000多例痴呆病例超过三十年的深入分析开发，并于2015年在500名患者中正式验证，用于评估重度痴呆（MMSE得分0-2）的疾病轨迹、生存能力和保留的功能潜力。我们的跨文化调适表明，中文GCT问卷表现出强大的区分力和同质性，具有优异的信度和效度。该工具使临床医生能够系统评估疾病进展，识别残余认知功能，并评估重度痴呆患者保留的与生存相关的能力，从而为个性化治疗和护理策略提供信息。

项目分析是通过消除冗余项目和优化质量来完善问卷的关键过程，揭示了中文GCT问卷良好的心理测量特性。所有14个项目都表现出足够的区分力，任何单一回答选项的选择率低于80%，项目分布无显著偏态。高分组和低分组之间的CR均超过3.0（范围：6.32–37.33，p<0.01），确认了强大的区分能力。强的项目-总分相关（0.487–0.895，均>0.4）表明优异的构念同质性。项目间相关范围从0.095到0.841，只有项目5和13显示出相对较高的相关系数（0.841），表明由于构念重叠可能存在冗余。根据既定的心理测量方案，具有≥1项次优指标的项目被标记为剔除。然而，通过专家小组审查强调临床效用和工具的全面性，项目5和13尽管相关性较高，但仍被保留，有待在扩大样本中进一步验证。因此，所有14个项目都保留在最终的中文GCT问卷中。

效度关乎一个工具测量什么以及测量得如何。本研究主要评估了中文版GCT问卷的内容效度和结构效度。10位专家参与，I-CVI范围从0.80到1.00（均>0.78），S-CVI为0.91，证实了强共识，即项目充分反映了目标构念。结构效度反映了测量工具的内在属性，通过EFA和CFA进行评估。遵循既定标准（累积方差>50%，因子载荷>0.4，相关>0.4），提取了三个公因子，解释了65.513%的累积方差。因子1（“自主性/警觉性”）包括项目1、2、3、4、6（载荷：0.688–0.864），因子2（“直觉/认知”）包括项目7、8、9、10、11（载荷：0.519–0.809），因子3（“躯体运动功能/睡眠”）包括项目5、12、13、14（载荷：0.654–0.902）。虽然中文GCT问卷的维度结构与原问卷完全一致，但对项目-因子分配进行了微调以增强科学性：项目5因其与“躯体运动功能/睡眠”相关性更强而被重新分配到因子3，项目6被分配到因子1以更好地反映“自主性/警觉性”，显示出与原工具相比改进的构念对齐和稳健的结构效度。CFA结果表明三因子模型拟合良好，所有拟合指数均达到可接受阈值。该模型有效地解释了变量之间的关系，从而证明了量表的结构完整性。

信度指的是随时间推移找到相同的结果，反映了被测特征的真实表征。本研究通过内部一致性分析评估内部信度，通过重测信度和评定者间信度评估外部信度。中文GCT问卷表现出强的内部一致性，总体Cronbach's α为0.898（超过原问卷的0.84），分量表系数为0.734–0.901（均>0.7），表明中文GCT问卷具有更高水平的内部一致性。重测信度是时间稳定性的关键指标，总体系数为0.959，分量表系数为0.951、0.953和0.882，证实了随时间推移的稳健稳定性。评定者间信度分析显示总体系数为0.986，分量表系数为0.877–0.976（均>0.7），表明高评定者间一致性。在所有指标——内部一致性、重测信度和评定者间信度——方面，中文GCT问卷的表现优于原工具，显示出临床应用方面优越的内部和外部稳定性。

研究结果揭示，项目1（“进食方式”）得分特别高，表明重度痴呆患者的吞咽功能相对保留。护理人员应优先监测吞咽能力，避免强迫喂养做法，从而降低窒息、误吸和随后肺部感染的风险。患者能够回答简单问题和单步指令，但对连续指令的反应有限，表明医疗提供者和护理人员在互动中应采用分阶段、循序渐进的指导，而不是使用复杂或冗长的陈述。值得注意的是，研究确定了患者保留了对家庭成员的面部识别能力，这可能与保留的情感依恋有关，这为增强护理人员信心和鼓励家庭积极参与治疗和护理过程提供了令人信服的证据。

由于深度依赖，重度痴呆患者极易受到虐待，包括忽视、心理或身体虐待。本研究证明，无论MMSE得分如何（0-2），这些患者都保留意识和伤害性知觉，并且尽管无法言语表达不适，仍然能够经历痛苦。虐待的关键风险因素包括护理人员精疲力竭、挫败感以及培训或支持不足。患者无法表达需求或不适往往导致无意的忽视，例如未解决的疼痛、卫生条件差或营养不足。GCT问卷客观地识别保留的能力，如疼痛感知，并作为医疗专业人员教育护理人员的工具性工具——使他们能够通过面部线索识别身体不适的迹象。这样的教育增强了护理人员的同理心，纠正了关于患者意识水平的错误观念，并强调了将患者视为有感知和尊严的个体的重要性，从而有助于预防虐待。

除了认知障碍，重度痴呆患者承受着显著的社会心理负担，这源于普遍的社会污名和文化误解。这些个体常常被社会孤立，被视为“空壳”，导致个人完整性和尊严的丧失。这种污名化也延伸到家庭护理人员，引发羞耻感、社会退缩和不愿寻求外部支持。缺乏意识和文化禁忌进一步导致痴呆被视为衰老过程中不可避免和可耻的部分，而不是一种神经病理状况。这种误解阻碍了患者及其家庭获得必要的支持和服务。我们的发现挑战了这种叙述，证明重度痴呆患者保留了某些功能和意识能力。将重度痴呆的概念从“完全丧失”转变为“保留能力”有助于减轻偏见，促进社会包容，并最终改善患者及其护理人员的生活质量。

GCT问卷在中国人群中的验证强调了跨文化视角在重度痴呆护理中的重要性。对衰老、痴呆、孝道以及“虐待”或“忽视”定义的看法深深植根于文化背景。在中国，孝道——一种核心文化价值——有助于防止遗弃老人，但也给独生子女一代带来了相当大的压力，可能增加护理人员负担和虐待风险。此外，文化规范塑造了问题行为的识别：在一种文化背景下被认为不恰当的行为在另一种文化背景下可能被容忍。通过提供一个客观且文化适应的评估框架，GCT工具可以在一定程度上超越主观的文化差异，并使不同文化背景下的患者需求和护理人员负担的标准化评估成为可能。

基于研究结果，我们提出了几条预防虐待的途径。首先，应将GCT问卷纳入常规临床实践，为每位重度痴呆患者建立“能力档案”。该档案可为制定以保留能力为中心的个体化护理计划提供信息，从而使护理更易于管理，并增强护理人员的成就感。其次，评估结果应纳入家庭心理教育计划，以纠正错误观念并减少污名。最后，高护理人员负担是虐待行为的关键风险因素。因此，必须帮助家庭获取外部护理资源并建立专业支持系统，从源头上减轻这种风险。

未来的研究应探索GCT问卷识别的特定功能损伤（如疼痛表达受损）与忽视事件之间的直接关系。此外，需要进行纵向研究来追踪功能衰退的进展如何影响护理人员的心理健康和虐待风险。此类研究对于制定有针对性的、基于证据的干预措施以保护这一脆弱人群的权利、生活质量和尊严至关重要。

局限性

本研究有几个局限性。由于时间和资源限制，样本选择存在地域限制，可能影响人群代表性。缺乏效标关联效度检验反映了目前中国缺乏广泛采用的重度痴呆评估工具。未来具有更大、更多样化样本的多中心研究应：调查影响重度痴呆患者生存能力和保留功能潜力的决定因素；建立针对该人群的循证干预措施。这些努力将解决现有的方法学差距，同时增强痴呆评估工具的临床适用性。

结论

中文版GCT问卷包括六个与患者病理特征相关的一般参数和14个特定领域项目。验证研究证实了其稳健的信度和效度、系统性的评估覆盖面和省时的管理。该工具对患者的语言要求最低，易于在床边或门诊环境中应用，显示出评估和分期重度痴呆的广泛实用性。该问卷具有明确的评分系统，使医疗专业人员和护理人员能够准确评估重度痴呆患者的活力、生存能力和维持基本技能的潜力。它有助于护理人员采用整体护理方法，帮助减少护理人员的言语或身体虐待，并最大程度地减少晚期并发症，从而显示出显著的临床效用。

热点排行

新闻专题