
-
生物通官微
陪你抓住生命科技
跳动的脉搏
挪威版社会推理意识测试(N-TASIT)的信效度研究:虚拟现实与2D版本在创伤性脑损伤患者中的应用比较
【字体: 大 中 小 】 时间:2025年09月22日 来源:Neuropsychological Rehabilitation 1.9
编辑推荐:
本文推荐挪威版社会推理意识测试(N-TASIT)的信效度验证研究。该研究通过比较创伤性脑损伤(TBI)患者与健康对照在虚拟现实(VR)和2D版本测试中的表现,证实N-TASIT具有良好的重测信度(ICC=0.63)和内部一致性(α=0.88),能够有效区分TBI患者(已知群体效度),并与社交认知测量指标呈中高度相关(收敛效度),而非社交认知领域相关性较弱(区分效度)。研究为临床提供了可靠的社会认知评估工具,尤其凸显了VR技术在神经心理学应用中的潜力。
引言
社会认知受损,即感知、解释和与他人情绪、感受及意图互动的能力受损,在中度至重度创伤性脑损伤(TBI)后十分常见,是导致伤后关系困难和社交参与减少的主要因素。社会认知作为一个总括性术语,涵盖多个相互关联的过程,从相对低阶和自动的功能(如情绪识别)到高阶和深思熟虑的功能(如道德推理)。这些过程也在认知-情感维度上变化,从“冷”过程(如认知心理理论,Theory of Mind, ToM)到“热”过程(如情感心理理论)。过去三十年的研究表明,社会认知与非社会认知过程(如记忆和执行功能)是不同的,神经影像学研究和病变患者研究提供了证据。情感心理理论受损与腹侧眶额皮质和内侧颞叶的病变有关,而认知和情感心理理论均受到TBI的负面影响。
最近的荟萃分析发现,TBI后识别多种基本情绪的能力受损。与健康对照组相比,识别恐惧和愤怒的效应值为中到大,厌恶、中性表情和悲伤的效应值为中等,而快乐和惊讶的效应值较小。其他社会认知过程也有受损风险,例如负性归因偏倚指的是TBI个体倾向于对模糊事件做出敌意归因。此外,研究发现特别是额叶病变可能对道德推理和社会规范的理解产生负面影响。
随着对TBI后社会认知损伤的科学理解不断深入,新兴证据表明这些损伤的程度与该患者群体的非社会认知缺陷(如注意或记忆障碍)相当,因此标准化的、基于证据的评估应纳入常规临床评估。这在自我意识受损常见的患者群体中尤为重要。然而,在1990年至2016年神经心理学家测试选择的全面概述中,42种最流行的测试中没有一种是社会认知的测量工具。此外,在对400多名从事TBI工作的临床医生的调查中,大多数人报告称,尽管患者本人或其家人常报告社会认知障碍问题,但只有不到12%的人常规评估情绪识别或心理理论。对此最常引用的解释是缺乏可用且心理测量学健全的评估工具,即缺乏可靠、有效且具有可用常模的社会认知测试。这种认为缺乏临床相关测试的看法表明,社会认知研究现状与经过充分验证的临床评估选项的可用性之间存在差距。因此,开发和验证评估TBI后社会认知的工具以弥补这一差距应是优先事项。
一个经过充分验证且临床常用的社会认知测试是“社会推理意识测试”(The Awareness of Social Inference Test, TASIT)。TASIT评估社会认知的两个核心方面:情绪识别和心理理论。受访者被要求解释短视频片段(15-75秒)中显示的社会情境。原始TASIT具有良好的重测信度,并且对TBI后的情绪识别和心理理论损伤敏感。一项研究发现,与健康个体相比,TBI参与者在所有情绪类别上都有困难,而另一项研究发现TBI个体在识别焦虑和厌恶这两种负面情绪方面存在特定问题。关于心理理论,TBI个体在推断真诚信息方面困难不大,但在解释非字面沟通(即讽刺)方面表现较差。TASIT表现也被证明对其他临床人群(如额颞叶痴呆)的社会认知损伤敏感。关于TASIT在其他临床人群中的效用的概述,可参考Mcdonald的著作。
TASIT的表现与其他情绪识别和心理理论测量方法相关,并且相对独立于注意、记忆和执行功能等认知过程,从而显示出良好的收敛效度和区分效度。除了是可靠和有效的评估工具外,TASIT还建立了常模,并且已被发现可以预测自我报告的社会整合方面的日常社会功能。
由于原始TASIT不适用于英语语境之外,最近开发了德语、荷兰语和挪威语的改编版本。挪威版本(N-TASIT)的独特之处在于,除了标准的2D视频外,刺激材料还制作为360°虚拟现实(VR)视频。360°VR中灵活动态的第一人称视角,结合外部环境的遮挡,可能会进一步提高相关性。
N-TASIT的开发过程已在别处描述。然而,其心理测量学特性,即信度和构念效度,仍有待确定,这是将其引入临床实践所必需的。评估工具必须证明其信度,即重复测量产生稳定结果且项目内部一致。在构念效度方面,当测试能够区分已知在所测量构念上存在差异的两个群体时,就证明了已知群体效度。构念效度的其他方面是收敛效度和区分效度;即测试表现与类似构念(如情绪识别、心理理论和共情)的测量表现相关的程度,以及与不相似构念(如认知功能、疲劳和精神痛苦)的测量表现无关的程度。
由于社会认知过程与认知、情绪和疲劳以复杂的方式相互作用,无论在概念上还是经验上,厘清这些构念都很困难。例如,在临床人群中,社会认知很少与认知功能完全无关,疲劳可能会加重社会认知损伤。虽然这可能会影响N-TASIT的信度和构念效度,但预计社会认知过程的独立贡献将对测试表现产生独特的影响。
本文旨在解决以下研究问题:
N-TASIT的重测信度和内部一致性如何?
N-TASIT的已知群体效度如何,即它能否区分TBI患者和健康人的表现?如果是,VR版本的TASIT是否比2D版本区分得更好?
N-TASIT的收敛效度如何,即TASIT表现与现有情绪识别、心理理论和自我报告共情测试的表现之间的关系如何?
N-TASIT的区分效度如何,即TASIT表现与处理速度、工作记忆、抽象、抑制控制和心理灵活性等神经心理学测量以及自我报告的疲劳和情绪困扰之间的关系如何?
方法
参与者和程序
该研究包括101名TBI患者和50名健康个体。对Sunnaas康复医院的患者记录进行了初步筛选,根据纳入和排除标准,通过邮件向符合条件的人发送了邀请函。信件包括研究信息和书面同意书,潜在参与者被要求阅读并通过邮件返回签署的同意书(如果感兴趣)。对那些没有回信的人,在给予通过短信选择退出的机会后,通过电话联系。对所有同意参与的人进行了彻底、半标准化的筛选访谈,以确定他们是否符合参与标准。
TBI参与者的纳入标准是:
放射学验证的复杂性轻度至重度TBI(CT/MRI),TBI严重程度通过格拉斯哥昏迷量表、意识丧失和创伤后遗忘持续时间组合分类。轻度和复杂性轻度TBI的区别基于美国康复医学大会的标准。
伤后至少12个月。
入组时年龄18-65岁。
有能力提供知情同意。
排除标准是:
失用症或身体损伤影响其操作VR设备的能力。
失语症或语言理解能力不足,无法理解挪威语的指令。
偏盲或视觉忽视。
严重精神疾病或酒精/物质使用障碍。
共病神经系统疾病。
非西方背景。
受伤时年龄小于16岁。
在参与者同意的情况下,由参与者指定的近亲被要求回答关于认知和社会功能的问卷测量。还通过在线广告招募了一个无头部损伤史的对照组,该组在年龄、性别和教育程度上与TBI组匹配。除了TBI是排除标准外,健康对照的纳入和排除标准相同。招募于2022年9月开始,2024年4月结束。
自我报告和知情者问卷数据通过奥斯陆大学托管的 secure data management systems(Nettskjema and Service for Sensitive Data, TSD)以数字方式收集和存储。在T1时间点,所有神经心理学测试测量和N-TASIT由作者MM和TJ在Sunnaas康复医院实施。在T2时间点,MM、TJ以及在某些情况下由研究助理实施后续N-TASIT评估。
该研究根据《赫尔辛基宣言》进行,并获得了地区医学研究伦理委员会(注册号376999)和数据处理机构SIKT(挪威教育与研究共享服务局;注册号172224)的批准。研究方案在数据收集前已在Clinical Trials(NCT05309005)和Open Science Framework(osf.io/2vem8)上预注册。所有参与者都提供了书面知情同意书。
设计
该研究是横断面研究,所有参与者在时间点1(T1)接受了收敛效度和区分效度的测量。所有参与者在T1和16周后的时间点2(T2)再次接受了N-TASIT评估,用于重测信度分析。TBI组的参与者被随机分配执行N-TASIT的VR或2D版本。为建立已知群体效度,在年龄、性别和教育程度上与TBI组匹配的健康对照也以VR或2D形式执行了N-TASIT。本研究是一个关于VR在TBI后认知康复中应用的更大研究项目的一部分,其中第一次和第二次TASIT评估与一项使用VR进行认知训练的随机对照试验(RCT)的基线和结果测量时间点重合。该RCT不涉及社会认知。
结果测量
TASIT
原始TASIT由三个部分组成,测量社会认知的不同方面。第1部分是情绪识别测试,演员在日常情境中表现出六种情绪(愤怒、悲伤、恐惧、厌恶、惊讶或快乐)之一或中性表情。每个视频后,受访者被要求选择他们认为演员表现的七个情绪类别中的哪一个。由于言语内容是情绪中性的,非语言信息是判断情绪表达的主要基础。每种情绪显示四次,最高分为28分。
第2和第3部分测量心理理论。受访者被要求根据演员显示的外在社会线索(例如面部表情、肢体语言或语调)推断可能的心理状态。第2部分包含15个视频,每个视频后有四个是/否问题,最高分为60分。四个问题分别涉及潜在信念、含义、意图和复杂情绪。在十个项目中,演员是讽刺的,即说一件事但意思相反。在其余五个视频中,演员是真诚的。第3部分包含16个项目,其中一半是讽刺显示,而另一半演员在说谎。第3部分中的视频都包含演员真实信念的背景信息。每个视频后相同的四类是非问题最高可得64分。
受访者用来推断心理状态的非语言信息对所有项目都是明确传达的。因此,TASIT是一个基于标准的测试,项目不会随着测试的进行而逐渐变难。因此,大多数具有平均社会推理能力的成年人应该表现良好,这是基于原始TASIT的发现。
N-TASIT
挪威版TASIT保留了原始测试的结构(3个部分,每个部分项目数相同)、内容和评分系统。对话、指令和回答选项是从原文逐字翻译的,并进行了少量现代化改编(例如,固定电话被手机取代)。开发了计算机软件用于自动化测试管理和评分,除了刺激呈现模式外,2D和VR中的评分是相同的。N-TASIT在2D条件下通过42英寸100 Hz LG电视实施,在VR条件下通过HTC Vive Pro实施。在2D版本中,回答选项通过键盘提供,而在VR中使用手持控制器。详情见Matre等人的著作。
收敛效度测量
社会认知领域(心理理论、情绪识别和共情)的基于表现测试和自我报告测量均被用作收敛效度测量。所有分析中使用平均总分。
暗示任务(Hinting Task)是一种心理理论测量,要求受访者根据间接信息(即暗示)推断意图。该任务包含10个文本片段,每个片段都以某人向另一个人表达间接信息结束。参与者被要求解释间接信息的潜在含义。暗示任务已翻译成挪威语,并且已被发现对TBI后的心理理论损伤敏感。在情绪识别任务(Emotion Recognition Task, ERT)中,受访者决定六个替代情绪标签中的哪一个与屏幕上情绪面部表情的照片相对应。照片逐渐从中性 morph 为六种情绪之一:愤怒、悲伤、恐惧、厌恶、快乐或惊讶。除了总分外,还提供每种情绪的单独分数。ERT具有良好的心理测量学特性,包括常模。人际反应指数(Interpersonal Reactivity Index, IRI)是共情的自我报告测量。它包含四个分量表:共情关注、观点采择、幻想和个人痛苦。IRI项目按6点Likert量表评分。根据推荐做法,分析仅限于共情关注和观点采择分量表,因为幻想和个人痛苦分量表似乎与共情的直接关系较小。共情关注和观点采择分量表旨在分别测量共情的情感和认知成分。
区分效度测量
处理速度、工作记忆、言语和视觉抽象、抑制控制和心理灵活性的基于表现的认知测试,以及日常执行功能、疲劳和情绪困扰的自我报告测量,被用于建立区分效度。
处理速度、工作记忆以及视觉和言语抽象分别通过韦氏成人智力量表第四版(WAIS IV)的译码、数字广度背数、数字广度顺序、矩阵推理和相似性子测试进行测量。来自Delis-Kaplan执行功能系统(D-KEFS)的连线测试4和颜色词语干扰测试3用于测量心理灵活性和抑制控制。
自我报告的日常执行功能通过执行功能行为评定量表成人版(Behaviour Rating Inventory of Executive Functioning – Adult, BRIEF-A)进行评估,其中日常执行功能问题按三点量表(从不、有时或经常)评分。使用了全局执行复合(GEC)分数以及元认知(MI)和行为调节(BRI)的指数分数。
疲劳通过疲劳严重程度量表(Fatigue Severity Scale, FSS)测量,这是一个包含九个项目的问卷,按七点量表回答。抑郁和焦虑相关症状通过患者健康问卷9项量表(PHQ9)和广泛性焦虑障碍7项量表(GAD7)测量,两者均按四点量表回答。
所有认知测试的分析使用标准化分数(ss),BRIEF-A反应使用T分数,而自我报告的疲劳和情绪困扰使用平均总分。
样本量
正如所指出的,这项验证研究是一个更大的VR研究的一部分,该研究还包含一项随机对照试验,其中使用g*power进行的效能计算表明需要纳入100名TBI参与者。就本研究而言,这样的样本量将允许在给定中等效应大小、α值0.05和0.95的效能下,检测TBI组在T1和T2之间的显著变化,并允许10%的脱落率。这使得每个N-TASIT组的样本量为n=50。由于时间限制,在年龄、性别和教育水平上与患者组匹配的对照组仅限于50名参与者。
随机化和盲法
TBI组的参与者通过STATA软件版本17生成的区组分配(可变区组大小4和6)随机分配到TASIT的VR或2D管理。随机化密钥由一位未参与评估的统计学生成。为了最大化健康对照组的VR暴露,在该组中放弃了随机化,我们选择将50名健康对照中的40名纳入VR组,因为一个关键研究问题是VR测试区分患者和健康受试者的能力。这使得10名健康对照处于2D测试条件。盲法不适用,因为分配到VR或2D条件是无法隐藏的。
统计分析
使用组内相关系数(ICCs;双向混合,绝对一致性,平均测量)计算N-TASIT第1-3部分和总分的重测信度。TBI组和健康对照组分别和合并检查。ICC < 0.50表示信度差,0.50-0.75中等,0.75-0.90良好,> 0.90优秀信度。95%置信区间的下限目标设定为中等信度(> 0.60)。
进行配对样本t检验以评估整个样本在T1和T2之间的表现差异(p = .05)。效应大小(Cohen’s d)的计算以小效应大小(即0.20 ≤ d < 0.50)为目标。建立Bland Altman图以评估两组在T1和T2表现之间的平均差异和95%一致性限。进行ANCOVA以检查年龄、性别、受教育年限和呈现格式对TBI组T2分数的影响。
使用Cronbach’s alpha探索N-TASIT第1-3部分和总分的内部一致性,分别针对整个样本、TBI组和健康对照组。Alpha水平高于0.70通常被认为是可接受的,而高于0.90的水平可能表明项目冗余。
使用三种方法测试构念效度:(1)已知群体效度,即TBI组与健康对照组之间的差异,(2)收敛效度,即与类似构念测量的关系,以及(3)区分效度,即与不相似构念测量的关系。由于N-TASIT分数在TBI组和健康对照组中均呈负偏态,因此使用Mann Whitney U检验探索N-TASIT第1-3部分和总分的已知群体效度,分别在VR和2D条件下以及合并呈现模式进行。效应大小计算为Pearson’s r,使用Cohen的分类指南:大效应为0.5,中等效应为0.3,小效应为0.1。Spearman等级顺序相关系数用于探索收敛效度和区分效度,应用Cohen的相关分类指南:小=0.20,中=0.30,大=0.50。在所有的收敛效度和区分效度分析中,VR和2D条件被合并。
对于人口统计数据,使用独立样本t检验测试患者和对照组之间连续变量的差异。还进行了独立样本t检验以测试两组中VR和2D条件下的年龄分布是否不均等。卡方检验用于列联表以检测分类变量的差异。
所有分析均在IBM SPSS statistics version 29.0中进行。Bland–Altman图使用R(version 4.3.0)和Rstudio(version 22.0.3)中的ggplot2包创建。
结果
参与者
最终样本包括101名TBI患者,平均年龄45.8岁(SD:13.8),其中26名女性。平均受伤时间为5.5年(SD:3.2)。对照组由50名无头部损伤史的健康参与者组成。两组在年龄和性别上匹配良好,而对照组的教育水平略高。在TBI组内或健康对照组中,分配到VR和2D版本的参与者之间没有显著的年龄差异。总共有5名健康对照组参与者和11名TBI组参与者失访。此外,技术问题阻碍了7次N-TASIT实施,全部发生在VR组。T1和T2之间的平均时间为125天(SD:15天)。
信度
重测信度
由于本研究旨在确定挪威TASIT本身的信度,并且参与组之间VR和2D模式的表现没有显著差异,因此将这些模式合并以增加统计效能。对于总样本,即患者和对照合并,并包括VR和2D版本,N-TASIT总分的重测信度为中等(ICC = 0.63,95% CI 0.49–0.73),所有三个子测试的信度为中等到良好(ICC分别为0.63、0.75和0.75)。健康对照组总分的ICC较差(ICC = 0.37)。95% CI下限 > 0.60的目标,表明至少中等重测信度,在TBI组和总样本的所有三个部分都达到了,但总分和健康对照组未达到。TBI组的平均N-TASIT总分从T1(118.1;SD:1.9)提高到T2(120.5;SD:11.0),这是一个统计学上的显著差异(p = 0.01),效应大小较小(d = 0.25)。在TBI组中,T1分数解释了T2结果变异的63%(F(1,81) = 134,82, p < 0.001),而年龄、性别、教育程度和呈现模式等潜在混杂变量均不显著。总N-TASIT分数的Bland–Altman图(针对整个样本以及TBI和健康对照组)表明没有系统偏差,并且大多数响应落在第5和第95百分位数之间。N-TASIT各个部分的Bland–Altman图显示出类似的模式。
内部一致性
如表2所示,总N-TASIT分数的Cronbach alpha水平表明合并样本(α = 0.88)以及TBI组(α = 0.87)和健康对照组(α = 0.81)的内部一致性可接受。第1部分的alpha水平略低于合并样本和单独组的可接受阈值,而第2和第3部分的所有系数都在可接受范围内。
已知群体效度
平均而言,健康对照组在N-TASIT上的表现优于TBI组,无论是在总分还是所有三个部分上。效应大小对于总分和单独部分都是中等。总分的频率分布显示两组均呈高度左偏分布。如图所示,仅在健康对照组中存在天花板效应。平均而言,健康对照组在正确分类第1部分中显示的各种情绪方面也优于TBI组,除了“悲伤”类别。在第2和第3部分也发现了相同的模式,除了第2部分的“真诚”项目。平均而言,中度至重度TBI患者在总分和
生物通微信公众号
知名企业招聘