综述:北欧国家基础军事训练中的认知测试实践:范围综述

《Scandinavian Journal of Psychology》:Cognitive Testing Practices for Basic Military Training in the Nordic Countries: A Scoping Review

【字体: 时间:2026年06月14日 来源:Scandinavian Journal of Psychology 2.1

编辑推荐:

  北欧国家长期以来将一般心理能力(GMA)测试作为其军事征兵流程的一部分,这一实践始于20世纪中期。这些北欧测试的开发具有双重目的——筛选不适合服兵役的个体,并对个体的GMA进行排序以分配军事角色——它们共享共同特征,包括历史渊源、管理程序和解释方法。最初专门为

  
北欧国家长期以来将一般心理能力(GMA)测试作为其军事征兵流程的一部分,这一实践始于20世纪中期。这些北欧测试的开发具有双重目的——筛选不适合服兵役的个体,并对个体的GMA进行排序以分配军事角色——它们共享共同特征,包括历史渊源、管理程序和解释方法。最初专门为男性设计,如今这些测试由男性和女性共同参与,反映了社会规范的转变。然而,关于这些测试当前心理测量学属性的报告有限,引发了对它们信度与效度的质疑。如果没有关于这些评估测量特性的最新知识,那么从这些测试中得出的结果通常应谨慎解释。北欧GMA测试数据在更广泛的社会与健康研究(包括弗林效应)中的广泛使用,进一步强调了更新验证的必要性。这些努力不仅将维持这些测试的科学可信度,还将确保为其他研究提供信息的数据以及从中得出的结论基于对GMA测试的准确解释。
**1 背景**
一般心理能力(GMA)测试在军事选拔中具有悠久的传统,因其管理简便、成本效益高以及对个体表现的预测效度而受到认可。GMA涵盖学习、适应新情境和处理新信息的能力,包括推理、计划、问题解决、抽象思维及应对复杂性的能力,通常被视为一个多维、分层的构念,以一般能力为顶层,更具体的能力(如言语、空间和逻辑推理)为其基础。作为一种潜在特质,GMA无法直接观测,需通过反映这些潜在能力的指标进行测量,常使用多项选择(MC)项目。研究一致表明,GMA测试的测量结果能强预测工作和教育领域的表现,因此被广泛视为有效的评估工具。GMA在军事环境中也被证明是表现的有力预测因子。军事GMA测试的起源可追溯至第一次世界大战,美国陆军实施的阿尔法(Army Alpha)和贝塔(Beta)测试奠定了基础,随后北欧国家采纳了类似方法。征兵作为要求个体依法服兵役的系统,其选拔过程需确保效度与信度,这既是实际需要也是伦理要求。

**1.1 审查目标**
瑞典征兵电池(SEB)近期进行了更新和现代化,研究人员借此机会进行了文献综述,以评估与瑞典类似国家中用于基础军事训练的认知能力测量现状。范围综述聚焦于北欧国家(挪威、丹麦和芬兰,冰岛因无武装力量被排除),旨在回答三个研究问题:北欧国家基础军事训练的GMA测试包含哪些内容?这些测试报告了哪些心理测量学属性,以及测试在这些属性上的表现如何?是否有关于这些测试中GMA变化的报告?

**2 材料与方法**
研究人员于2024年9月对Web of Science、PsychInfo和Scopus三个数据库进行了检索。针对每个国家调整检索词,例如对瑞典添加了测试名称的检索块。纳入标准为学术相关内容(报告、同行评审文章、学位论文、教科书),排除新闻或博客;可接受语言为英语、瑞典语、挪威语或丹麦语。2024年1月,研究人员尝试联系丹麦、挪威和芬兰的早期合作者,以获取相关材料和确定检索词,但未能联系到芬兰(后于2024年秋季跟进)。所有回复均将测试保密性列为报告有限的关键原因。电子检索共获得646条记录,手动检索增加3条,去重后共649条。使用Rayyan平台进行标题和摘要筛选。纳入标准为:研究聚焦于军事背景下的GMA测试,样本为潜在征兵人员或军事人员,研究目的为评估GMA测试或该群体GMA的属性。排除利用GMA测试结果研究其他问题(如健康结果)或评估其他认知能力(如情绪控制)的研究。标题和摘要筛选后排除609条,剩余40条进行全文评估,再排除4条,另有3篇1940年代的论文无法获取全文,最终纳入33篇论文。

**3 结果**
**3.1 理论基础与实践导向**
北欧国家自1940-1950年代起将认知测试纳入军事征兵标准。测试的总体目标是在不考虑教育背景的情况下评估认知能力,确保潜在征兵人员具备基本心理能力。这些测试基于双重基础:一是为实际军事选拔需求开发,受世界大战时期美国团体测试方法启发;二是基于一般心理能力的心理学理论。历史上测试针对年轻男性,但近年瑞典和挪威已将女性纳入。目前瑞典约5%的同龄人接受征兵,挪威约15%,芬兰约33%(早期为88%),丹麦通过抽签选出20%-25%的男性。丹麦测试始于1957年,名为B?rge Prien's Pr?ve (BPP),主要测量流体智力,包含四个子测试(字母矩阵、言语类比、数字序列和几何图形),基本未变。芬兰测试始于1955年,1981年起称为Peruskoe-1(基础测试),包含三个子测试(言语、算术和视空间)。挪威测试始于1954年,仅有微小改动(如1990年代将算术子测试改为多项选择格式)。瑞典测试始于1944年,经过多次修订(最新为SEB-2025),最初受斯皮尔曼(Spearman)一般能力概念影响,1950年代转向瑟斯通(Thurstone)的初级心理能力模型,1990年代后受现代理论指导,SEB-2025理论上与主流智力理论对齐,强调GMA及三种广泛认知能力:流体智力(Gf)、晶体智力(Gc)和视空间智力(Gv)。

**3.2 北欧GMA测试与子测试**
丹麦BPP包含四个子测试:字母矩阵(模式识别)、言语类比(言语推理)、数字序列(数字推理)和几何图形(空间推理)。芬兰Peruskoe-1有三个子测试:言语(词汇和词间关系)、算术(数字序列和基本数学问题)和视空间(类似瑞文矩阵)。挪威测试有三个子测试:算术(数学技能和逻辑推理)、词汇相似性(通过同义词评估词汇)和图形(非言语测试,类似瑞文矩阵)。瑞典SEB-2025包含六个子测试,每项广泛认知能力对应两个子测试:Gf由数字序列和纸折剪测试评估,Gc由同义词和反义词评估,Gv由纸张折叠和骰子测试评估。

**3.3 管理**
除芬兰使用机读答题卡外,其他北欧国家均采用计算机化测试。丹麦和挪威分别于2010-2011年和2011年实现计算机化,瑞典自1990年代起计算机化。所有测试在监考团体情境中进行(挪威正探索家庭环境下的无监考测试)。各国均对子测试设置时间限制:丹麦总时限45分钟,芬兰37分钟,挪威53分钟,瑞典70分钟。多项选择(MC)项目是芬兰、挪威和瑞典的常规题型,丹麦则采用100个选项以最小化猜测效应。所有子测试题目按难度递增顺序排列。

**3.4 获得测量值**
丹麦BPP的原始得分通过四个子测试正确数求和(满分78,最低28分考虑征兵)。芬兰将120个项目的得分加总。挪威将各子测试得分转换为正态分布F分数后加总。瑞典SEB-2025采用平行测试形式,使用Leunbach模型和Rasch模型将正确反应等值化,转换为logit量尺的θ值,以六个θ值的平均值作为GMA测量值。所有国家将测量值转换为标准九(Stanine)类别用于基础军事训练选拔,Stanine基于正态分布标准差,类别占比分别为4%、7%、12%、17%、20%、17%、12%、7%、4%。

**3.5 测试的心理测量学属性**
丹麦BPP四个子测试的Cronbach's α系数为0.72-0.82,与韦氏成人智力量表(WAIS)的相关系数为0.82,表明其具有强一般智力(g)成分。BPP与教育水平的相关系数稳定为0.55。研究显示BPP对高能力测试者比低能力者更敏感。2020年Nielsen等使用Leunbach模型支持总分使用,但未在项目层面分析。历史上天花板效应极小。丹麦测试中,低动机者表现更好。芬兰Peruskoe-1子测试的重测信度为0.76-0.88,但未发现其他心理测量学研究。挪威测试三个子测试的重测信度分别为0.84、0.72和0.90,与WAIS的相关系数为0.72,支持构念效度。Helland-Riise等(2024)对矩阵测试的项目分析显示单维IRT模型拟合良好,但在高能力端精度较差,存在天花板效应,且项目水平存在性别差异,但测试水平对男女同等有效。瑞典SEB-2025因刚投入使用尚无完整研究,但纸折剪(PFC)测试显示出良好心理测量学属性。SEB-2000已展示出坚实的构念效度,包括与瑞典学业能力测试的关联。

**3.6 GMA变化**
北欧国家的研究揭示了弗林效应(Flynn effect)的正向和负向趋势。丹麦从1950年代至1980年代显著增长(低百分位更明显),2000年代初开始下降(负向弗林效应),可能与平等主义教育体系有关。芬兰1988-1997年增长后下降,可能归因于劣生生育率(dysgenic fertility)。挪威数据显示增长至1990年代中期,随后算术和词汇技能急剧下降,原因不是移民,而是社会和科技变化(如依赖数字工具和词汇测试过时)。近期挪威研究提示时间趋势可能受测试属性变化影响。瑞典从1970年代至1990年代初视空间分数显著增长,而言语测试停滞。

**4 讨论**
北欧国家自20世纪中期起长期使用GMA测试进行军事征兵,最初为男性设计,现已覆盖女性。这些测试反映了独特的历史与方法选择:双重目的(筛选与排序)。各国测试在初衷、管理程序和Stanine解释上相似,但存在差异:挪威、芬兰和丹麦测试基本未变,而瑞典测试多次修订;丹麦和瑞典现代版本基于现代测试理论,芬兰和挪威基于经典测试理论(CTT),但挪威近期工作也使用了IRT方法。心理测量学属性的报告有限,引发对其效度与信度的质疑。研究人员强调需谨慎解释现有GMA数据,因为测试属性可能随时间变化,项目漂移可能挑战早期结论。测试不仅服务征兵高利害决策,还为广泛社会与健康研究提供数据(如家庭研究、心理构念比较、健康结果等)。研究结果可能影响公共政策与医疗实践,因此确保测量工具准确性至关重要。公平性方面,测试开发于男性群体,现应用于女性(丹麦和芬兰自愿,挪威和瑞典强制),且人口构成变化(如移民背景)要求细致的测量特性研究。

**5 结论与未来研究与实践启示**
未来需进一步研究和发表此类评估的心理测量学属性,以支持其在军事选拔和利用GMA测试结果的更广泛研究中的持续使用。这些努力将维持测试的科学可信度,并确保为其他研究提供信息的数据及结论基于对GMA测试的准确解释。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号