综述：完形填空测试表现与认知能力的综合性元分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月10日 来源：Intelligence 2.8

编辑推荐：

　　本综述通过多水平随机效应元分析，系统回顾了110年来关于完形填空测试（Cloze test）与认知能力关联的研究。结果表明，该测试与晶体智力（gc）相关性最高（r = .54），与流体智力（gf）也显著相关（r = .48），且测试形式（如多项选择题型）对结果有显著调节作用。作者提出应重新将完形填空视为一种可评估多种认知能力的通用智力测试格式，而非仅限于阅读能力测量。

历史渊源与概念演变

完形填空测试（Cloze test）最早由德国心理学家Hermann Ebbinghaus于1897年提出，当时称为"组合测试法"（Kombinationsmethode），旨在通过让学童填充文本中缺失的单词来评估智力水平。20世纪50年代后，该测试被通信学者Wilson Taylor重新发掘并命名为"Cloze"，逐渐成为语言学和教育领域衡量阅读能力和语言熟练度的主流工具，但其作为认知能力评估工具的起源却被淡忘。

测试设计与认知关联机制

典型的完形填空测试通过删除文本中的单词或词段（如每第n个词或特定词类），要求受试者根据上下文填补空白。测试形式多样，包括开放作答型（传统Cloze）和多项选择型（Maze test），文本类型涵盖文学性材料与信息性内容。元分析显示，该测试与广义智力（g）相关性最强（r = .61），与晶体智力（gc）的关联（r = .54）显著高于流体智力（gf）（r = .48）。在gc细分维度中，书面接受性能力（gc_wr）、语法敏感性（gc_gr）和词汇知识（gc_voc）均呈现高度相关（r = .55-0.56），表明其测评维度跨越语言能力的多个层面。

元分析的方法学框架

研究采用多水平随机效应模型，纳入89项研究（N = 37,912，k = 634），涵盖1910-2020年间的英语母语研究。认知能力分类基于Cattell-Horn-Carroll（CHC）理论框架，将协变量归类为晶体智力（gc）、流体智力（gf）、加工速度（gs）和提取能力（gr）等广义维度，并进一步细分至狭窄能力层（如口语产出能力gc_op）。通过Fisher's z转换处理相关性数据，采用聚类稳健方差估计解决效应量依赖性问题。

核心发现与调节效应

测试设计特征的调节分析显示：删除模式（固定比率vs内容相关）对gc关联度无显著影响；文本类型（信息性vs文学性）对gf和gc的关联模式亦无调节作用。唯一显著的调节因素是应答类型——多项选择型完形填空与gc的相关性（r = .59）显著高于开放作答型（r = .52）（p = 0.04）。这种差异可能源于多项选择型测试降低了构造反应对工作记忆的负荷，但需注意Maze测试多应用于学龄群体带来的混淆效应。

认知机制的理论阐释

完形填空测试的认知机制与阅读理解模型高度吻合。根据Kintsch和van Dijk的文本表征理论，成功填补空白需要同时激活长时记忆中的语言知识（属gc范畴）和执行推理、整合的在线加工能力（属gf范畴）。这种双重需求解释了为何测试既与词汇、语法等晶体能力相关，又与归纳推理等流体能力存在中等关联。值得注意的是，测试与陈述性知识（gc_dk）的相关性（r = .45）显著低于语言能力，说明其更偏向于程序性语言知识而非事实性记忆。

应用前景与跨领域意义

本研究结果支持将完形填空重新定义为一种"测试方法格式"，类似于多项选择题型，可通过系统设计适配不同认知能力的测量需求。例如：通过采用专业技术文本并配合内容相关删除，可强化对领域知识（gc_dk）的评估；而添加时间限制则可能增加对心理加工速度（gs）的敏感性。这种灵活性使其在临床认知评估、教育质量监测和跨文化智力研究中具有独特价值。

研究局限与未来方向

当前元分析的局限性包括：仅纳入英语研究，限制结论的跨语言普适性；缺乏原始数据阻碍了基于结构方程模型的潜变量分析；调节分析中多数设计特征水平样本量不足。未来研究应系统操纵文本连贯性、时间约束和预呈现条件等变量，并结合眼动追踪、脑成像等技术深入探索认知加工机制。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号