评估纸笔与自动化认知评估工具在英国少数族裔群体中适用性的效用研究

《INTERNATIONAL JOURNAL OF GERIATRIC PSYCHIATRY》：Assessing the Utility of Automated and Pen-And-Paper Cognitive Assessment Tools for Underrepresented Groups in the UK

【字体：大中小】 时间：2026年06月09日 来源：INTERNATIONAL JOURNAL OF GERIATRIC PSYCHIATRY 2.8

编辑推荐：

　　摘要背景：传统纸笔认知评估工具在检测痴呆时，对少数族裔人群尤其是第二语言完成评估者误诊率较高。CognoSpeak是一种利用机器学习从语音中检测早期认知障碍征象的自动化认知评估工具(automated cognitive assessment tool)。研

摘要背景：传统纸笔认知评估工具在检测痴呆时，对少数族裔人群尤其是第二语言完成评估者误诊率较高。CognoSpeak是一种利用机器学习从语音中检测早期认知障碍征象的自动化认知评估工具(automated cognitive assessment tool)。研究人员评估了不同纸笔认知评估工具及CognoSpeak在英国居住的少数族裔人群中的适用性。方法：由约克郡(Yorkshire)四个社区中心的研究推广员(recruitment champion)从其社区招募认知健康成人：索马里裔51人、南亚裔(南约克郡)50人、华裔50人、南亚裔(西约克郡)49人。受试者完成蒙特利尔认知评估(Montreal Cognitive Assessment, MoCA)、罗兰通用痴呆评估量表(Rowland Universal Dementia Assessment Scale, RUDAS)、多元文化认知检查(Multicultural Cognitive Examination, MCE)及CognoSpeak。结果：少数族裔社区中心招募的受试者中，MoCA误分类为认知受损的比例高达47.5%，而RUDAS仅为3.4%，MCE为2%。基于声学特征的支持向量机(Support Vector Machine, SVM)模型分析CognoSpeak应答在少数族裔队列中准确率达83%，与单语者(86%)相近。基于语言和文本模型显示出较高偏倚。结论：MCE和RUDAS等多文化认知评估工具可能优于MoCA用于多语种少数族裔人群。CognoSpeak等自动化AI工具有望减轻痴呆检测的医疗负担，但在临床实施前需进一步处理AI模型中的隐性偏倚(implicit bias)。

论文解读：评估纸笔与自动化认知评估工具在英国少数族裔群体中适用性的效用研究

【研究背景与意义】

痴呆(dementia)全球患病率持续上升，少数族裔社区（包括南亚裔和黑人族群）增幅尤为显著，部分归因于该群体中较高的生物学及社会经济学危险因素。英国少数族裔人口持续增长，近四分之一居民自认为属于少数族裔群体。目前临床常用的标准化认知筛查工具如蒙特利尔认知评估(Montreal Cognitive Assessment, MoCA)和Addenbrooke认知检查(Addenbrooke's Cognitive Examination, ACE-III)在混合临床人群中检测轻度认知障碍(mild cognitive impairment, MCI)或痴呆具有较好敏感度与特异度，但应用于少数族裔及英语作为附加语言(English as an additional language, EAL，即英语非母语)人群时问题突出——常将健康个体误判为认知受损（假阳性）。已有研究显示MoCA对黑人健康受试者的误诊率是白人的两倍，简易精神状态检查(Mini-Mental State Exam, MMSE)亦出现类似偏倚。这种偏差本质上关联文化与语言多样性而非族裔本身。为此，Rowland Universal Dementia Assessment Scale(RUDAS)及其扩展版Multicultural Cognitive Examination(MCE)被开发以减少语言和文化的依赖，不依赖语言复述和连续减算等对教育和语言水平敏感的项目。另一方面，CognoSpeak是基于人工智能(artificial intelligence, AI)和机器学习从自然言语中提取特征的自动化语言记忆评估工具，前期在白人单语人群中达约80%–87%区分准确率，但尚未在少数族裔双语人群中验证。因此，研究人员与四个少数族裔社区中心合作开展本研究，旨在：(1)评估MoCA、RUDAS、MCE在认知正常少数族裔成人中的误分类率；(2)评估CognoSpeak在该人群中的误分类率；(3)比较CognoSpeak与各纸笔量表在同一队列中的表现。论文发表于《International Journal of Geriatric Psychiatry》。

【主要研究方法概要】

研究人员通过约克郡四个少数族裔社区中心（Israac索马里社区、Shipshape南亚社区—南约克郡、Meri Yaadain南亚社区—西约克郡、谢菲尔德华人社区中心）招募200名认知正常、能用英语完成所有评估的少数族裔成人（索马里50人、华裔50人、南亚裔南约克郡51人、南亚裔西约克郡49人）。受试者依次完成RUDAS、MCE、MoCA（均由受过培训的研究推广员施测）及在线CognoSpeak评估（含14道诱导口语回答的问题，音频录制后用Whisper自动语音识别转写，分别提取声学特征和语言学特征训练SVM及微调大语言模型(large language model, LLM)做二分类——健康对照vs.认知受损），同时收集人口学信息及英语熟练度（5级量表）、广泛性焦虑量表(GAD-7)和患者健康问卷(PHQ-9)。纸笔量表采用各量表标准划界分判定"认知正常"（MCE≥70/100，MoCA≥26/30，RUDAS≥23/30；另分析MoCA放宽至≥23/30情形），用广义Logistic混合效应模型和线性混合效应模型分析通过率及得分影响因素，用重复测量ANOVA分析词语流畅性测验(verbal fluency test, VFT)表现。

【研究结果】

3 Results

研究人员发现尽管所有少数族裔受试者均为认知正常，仅52.5%达到MoCA"认知正常"阈值，显著低于RUDAS(96.5%, p<0.001)和MCE(98.0%, p<0.001)。通过率随年龄增大、受教育年限减少、英语熟练度降低而下降(p值均显著)，焦虑抑郁评分无显著影响。将MoCA cutoff放宽至≥23/30后，正常识别率升至80.5%，仍显著低于RUDAS和MCE，且英语熟练度不再显著影响通过率，但年龄和教育年限仍有影响。线性回归显示MoCA得分与英语熟练度显著正相关(β=0.68, p=0.001)，而MCE(β=0.61, p=0.13)和RUDAS(β=0.22, p=0.07)无此关联，证实MoCA受第二语言水平干扰最大。

3.1 Verbal Fluency Tasks（词语流畅性任务）

重复测量ANOVA显示英语熟练度和VFT类型均显著影响流畅性得分，二者存在交互作用。超市物品语义流畅性(supermarket fluency)得分与英语熟练度相关不显著(r=0.14, p=0.051)，动物语义流畅性及字母流畅性与英语熟练度显著相关，表明超市类别流畅性对双语者语言壁垒最不敏感，更公平反映其真实认知与语言能力。部分音节不存在于母语者（如索马里语无/p/音）在字母流畅性中产生系统性偏差，非认知因素所致。

3.2 CognoSpeak Assessment（CognoSpeak评估）

基于声学特征+SVM模型整体正确分类健康受试者为84%（索马里84%、华裔90%、南亚裔西约克郡64%、南亚裔南约克郡95%），与单语对照组86%接近；基于语言学特征+SVM及基于Whisper转写文本微调LLM的整体准确率均为59%，且在双语队列中明显低于单语者，说明纯语言/文本分析易受第二语言偏倚影响，而声学特征分析在跨语言人群中较稳健。

【讨论与结论翻译】

讨论指出MoCA将近半数认知健康少数族裔误分为认知受损，而MCE和RUDAS误分率<4%，更适合多文化多语言人群，即便放宽MoCA cutoff仍存约20%误分。CognoSpeak基于声学分析的模型在双语少数族裔中维持较高分类准确率，但语言/文本模型偏倚明显，提示AI工具需纳入多元族裔和双语人群数据以减少隐性偏倚后方可临床使用。超市语义流畅性因日常高频使用较不受英语水平限制，是更适宜的第二语言人群VFT选项。局限性含样本平均年龄低于典型就诊人群、未纳入确诊MCI/痴呆患者故无法评估假阴性率。

结论：对于双语少数族裔个体的认知评估，MoCA不如MCE和RUDAS适宜。CognoSpeak等自动化认知评估工具有潜力跨语言背景检测认知状态，但须与少数族裔及多语社群共同开发，并纳入其常模数据以降低偏倚风险。未来需探讨此类工具在少数族裔MCI及痴呆患者中的假阴性风险及检测准确性。

热点排行