NASA-TLX在HCI领域的适用性争议：心理负荷测量的理论与方法学问题综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月27日 来源：International Journal of Human-Computer Studies 5.3

编辑推荐：

　　为解决HCI领域中心理负荷(MWL)测量工具NASA-TLX的适用性争议，研究人员系统回顾了其理论背景与方法学缺陷，并通过实验验证了NASA-TLX与MRQ在典型HCI任务中的收敛效度与敏感性。研究发现NASA-TLX存在定义模糊、量表结构缺陷及HCI场景验证不足等问题，建议社区重新审视MWL测量标准。该研究为提升人机交互研究的方法论严谨性提供了关键证据。

在数字化技术飞速发展的今天，人机交互(HCI)系统对用户认知资源的需求日益增长，如何准确评估心理负荷(Mental Workload, MWL)成为优化用户体验的关键。然而，作为HCI领域"黄金标准"的NASA任务负荷指数量表(NASA-TLX)，其理论基础源于1970年代的航空领域，与现代数字交互场景的匹配度存疑。更令人担忧的是，大量研究将NASA-TLX与认知负荷(Cognitive Load)等概念混用，且缺乏对量表在HCI任务中的系统验证。

针对这一现状，研究人员开展了一项综合性研究，通过理论回顾、文献分析和对照实验，系统评估了NASA-TLX在HCI领域的适用性。研究发现，当前MWL研究存在三大核心问题：概念定义混乱（文献中存在68种不同定义）、测量工具缺陷（NASA-TLX基于过时的注意力理论），以及社区使用不规范（75篇CHI论文中仅14篇正确使用R-TLX版本）。为验证工具效度，研究者设计了基于扫描模糊键盘(SAK)和双N-back任务的对照实验，比较NASA-TLX与基于多资源理论(Multiple Resource Theory, MRT)的新型量表MRQ的性能。

研究采用混合实验设计，通过在线平台招募100名参与者，分别完成不同难度的SAK文本输入任务（扫描间隔500ms/1000ms）和双N-back任务（1-back/3-back）。使用扫描字符数(SPC)作为性能指标，同时收集NASA-TLX和MRQ的六维度评分。通过Cronbach's α检验量表内部一致性，采用方差膨胀因子(VIF)分析量表互补性，并通过重复测量ANOVA评估测试-重测信度。

关键发现：

定义混乱问题：系统回顾显示MWL在HCI领域常与"认知负荷"、"任务难度"等22种术语混用，且缺乏统一理论框架支撑。
NASA-TLX局限性：实验表明其子量表间相关性低(α=0.47)，与任务性能相关系数仅0.21，且受前序任务难度干扰显著(p<0.01)。
MRQ优势：基于MRT的MRQ展现出更好内部一致性(α=0.82)，能识别多任务资源竞争，但对单维任务敏感性不足。
工具互补性：VIF分析显示NASA-TLX的"挫败感"子项与MRQ的"空间注意力"维度可互补解释15%的方差变异。

这项发表于《International Journal of Human-Computer Studies》的研究具有双重意义：方法论层面，揭示了HCI社区对MWL测量的认知误区，提出必须区分MWL与认知负荷的理论边界；实践层面，证明现有工具在数字交互场景中的局限性，为开发新一代HCI专用量表奠定基础。研究特别强调，盲目使用NASA-TLX可能导致错误结论，建议未来研究结合多模态测量（如生理指标）并建立HCI特定的MWL操作定义。这些发现对提升人机交互研究的科学严谨性具有里程碑意义，将直接影响用户体验评估的标准实践。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号