综述：北欧国家基础军事训练中的认知测试实践：范围综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scandinavian Journal of Psychology》：Cognitive Testing Practices for Basic Military Training in the Nordic Countries: A Scoping Review

【字体：大中小】 时间：2026年06月14日 来源：Scandinavian Journal of Psychology 2.1

编辑推荐：

　　北欧国家长期以来将一般心理能力（GMA）测试作为其军事征兵流程的一部分，这一实践始于20世纪中期。这些北欧测试的开发具有双重目的——筛选不适合服兵役的个体，并对个体的GMA进行排序以分配军事角色——它们共享共同特征，包括历史渊源、管理程序和解释方法。最初专门为

北欧国家长期以来将一般心理能力（GMA）测试作为其军事征兵流程的一部分，这一实践始于20世纪中期。这些北欧测试的开发具有双重目的——筛选不适合服兵役的个体，并对个体的GMA进行排序以分配军事角色——它们共享共同特征，包括历史渊源、管理程序和解释方法。最初专门为男性设计，如今这些测试由男性和女性共同参与，反映了社会规范的转变。然而，关于这些测试当前心理测量学属性的报告有限，引发了对它们信度与效度的质疑。如果没有关于这些评估测量特性的最新知识，那么从这些测试中得出的结果通常应谨慎解释。北欧GMA测试数据在更广泛的社会与健康研究（包括弗林效应）中的广泛使用，进一步强调了更新验证的必要性。这些努力不仅将维持这些测试的科学可信度，还将确保为其他研究提供信息的数据以及从中得出的结论基于对GMA测试的准确解释。

**1 背景**
一般心理能力（GMA）测试在军事选拔中具有悠久的传统，因其管理简便、成本效益高以及对个体表现的预测效度而受到认可。GMA涵盖学习、适应新情境和处理新信息的能力，包括推理、计划、问题解决、抽象思维及应对复杂性的能力，通常被视为一个多维、分层的构念，以一般能力为顶层，更具体的能力（如言语、空间和逻辑推理）为其基础。作为一种潜在特质，GMA无法直接观测，需通过反映这些潜在能力的指标进行测量，常使用多项选择（MC）项目。研究一致表明，GMA测试的测量结果能强预测工作和教育领域的表现，因此被广泛视为有效的评估工具。GMA在军事环境中也被证明是表现的有力预测因子。军事GMA测试的起源可追溯至第一次世界大战，美国陆军实施的阿尔法（Army Alpha）和贝塔（Beta）测试奠定了基础，随后北欧国家采纳了类似方法。征兵作为要求个体依法服兵役的系统，其选拔过程需确保效度与信度，这既是实际需要也是伦理要求。

**1.1 审查目标**
瑞典征兵电池（SEB）近期进行了更新和现代化，研究人员借此机会进行了文献综述，以评估与瑞典类似国家中用于基础军事训练的认知能力测量现状。范围综述聚焦于北欧国家（挪威、丹麦和芬兰，冰岛因无武装力量被排除），旨在回答三个研究问题：北欧国家基础军事训练的GMA测试包含哪些内容？这些测试报告了哪些心理测量学属性，以及测试在这些属性上的表现如何？是否有关于这些测试中GMA变化的报告？

**2 材料与方法**
研究人员于2024年9月对Web of Science、PsychInfo和Scopus三个数据库进行了检索。针对每个国家调整检索词，例如对瑞典添加了测试名称的检索块。纳入标准为学术相关内容（报告、同行评审文章、学位论文、教科书），排除新闻或博客；可接受语言为英语、瑞典语、挪威语或丹麦语。2024年1月，研究人员尝试联系丹麦、挪威和芬兰的早期合作者，以获取相关材料和确定检索词，但未能联系到芬兰（后于2024年秋季跟进）。所有回复均将测试保密性列为报告有限的关键原因。电子检索共获得646条记录，手动检索增加3条，去重后共649条。使用Rayyan平台进行标题和摘要筛选。纳入标准为：研究聚焦于军事背景下的GMA测试，样本为潜在征兵人员或军事人员，研究目的为评估GMA测试或该群体GMA的属性。排除利用GMA测试结果研究其他问题（如健康结果）或评估其他认知能力（如情绪控制）的研究。标题和摘要筛选后排除609条，剩余40条进行全文评估，再排除4条，另有3篇1940年代的论文无法获取全文，最终纳入33篇论文。

**3 结果**
**3.1 理论基础与实践导向**
北欧国家自1940-1950年代起将认知测试纳入军事征兵标准。测试的总体目标是在不考虑教育背景的情况下评估认知能力，确保潜在征兵人员具备基本心理能力。这些测试基于双重基础：一是为实际军事选拔需求开发，受世界大战时期美国团体测试方法启发；二是基于一般心理能力的心理学理论。历史上测试针对年轻男性，但近年瑞典和挪威已将女性纳入。目前瑞典约5%的同龄人接受征兵，挪威约15%，芬兰约33%（早期为88%），丹麦通过抽签选出20%-25%的男性。丹麦测试始于1957年，名为B?rge Prien's Pr?ve (BPP)，主要测量流体智力，包含四个子测试（字母矩阵、言语类比、数字序列和几何图形），基本未变。芬兰测试始于1955年，1981年起称为Peruskoe-1（基础测试），包含三个子测试（言语、算术和视空间）。挪威测试始于1954年，仅有微小改动（如1990年代将算术子测试改为多项选择格式）。瑞典测试始于1944年，经过多次修订（最新为SEB-2025），最初受斯皮尔曼（Spearman）一般能力概念影响，1950年代转向瑟斯通（Thurstone）的初级心理能力模型，1990年代后受现代理论指导，SEB-2025理论上与主流智力理论对齐，强调GMA及三种广泛认知能力：流体智力（Gf）、晶体智力（Gc）和视空间智力（Gv）。

**3.2 北欧GMA测试与子测试**
丹麦BPP包含四个子测试：字母矩阵（模式识别）、言语类比（言语推理）、数字序列（数字推理）和几何图形（空间推理）。芬兰Peruskoe-1有三个子测试：言语（词汇和词间关系）、算术（数字序列和基本数学问题）和视空间（类似瑞文矩阵）。挪威测试有三个子测试：算术（数学技能和逻辑推理）、词汇相似性（通过同义词评估词汇）和图形（非言语测试，类似瑞文矩阵）。瑞典SEB-2025包含六个子测试，每项广泛认知能力对应两个子测试：Gf由数字序列和纸折剪测试评估，Gc由同义词和反义词评估，Gv由纸张折叠和骰子测试评估。

**3.3 管理**
除芬兰使用机读答题卡外，其他北欧国家均采用计算机化测试。丹麦和挪威分别于2010-2011年和2011年实现计算机化，瑞典自1990年代起计算机化。所有测试在监考团体情境中进行（挪威正探索家庭环境下的无监考测试）。各国均对子测试设置时间限制：丹麦总时限45分钟，芬兰37分钟，挪威53分钟，瑞典70分钟。多项选择（MC）项目是芬兰、挪威和瑞典的常规题型，丹麦则采用100个选项以最小化猜测效应。所有子测试题目按难度递增顺序排列。

**3.4 获得测量值**
丹麦BPP的原始得分通过四个子测试正确数求和（满分78，最低28分考虑征兵）。芬兰将120个项目的得分加总。挪威将各子测试得分转换为正态分布F分数后加总。瑞典SEB-2025采用平行测试形式，使用Leunbach模型和Rasch模型将正确反应等值化，转换为logit量尺的θ值，以六个θ值的平均值作为GMA测量值。所有国家将测量值转换为标准九（Stanine）类别用于基础军事训练选拔，Stanine基于正态分布标准差，类别占比分别为4%、7%、12%、17%、20%、17%、12%、7%、4%。

**3.5 测试的心理测量学属性**
丹麦BPP四个子测试的Cronbach's α系数为0.72-0.82，与韦氏成人智力量表（WAIS）的相关系数为0.82，表明其具有强一般智力（g）成分。BPP与教育水平的相关系数稳定为0.55。研究显示BPP对高能力测试者比低能力者更敏感。2020年Nielsen等使用Leunbach模型支持总分使用，但未在项目层面分析。历史上天花板效应极小。丹麦测试中，低动机者表现更好。芬兰Peruskoe-1子测试的重测信度为0.76-0.88，但未发现其他心理测量学研究。挪威测试三个子测试的重测信度分别为0.84、0.72和0.90，与WAIS的相关系数为0.72，支持构念效度。Helland-Riise等（2024）对矩阵测试的项目分析显示单维IRT模型拟合良好，但在高能力端精度较差，存在天花板效应，且项目水平存在性别差异，但测试水平对男女同等有效。瑞典SEB-2025因刚投入使用尚无完整研究，但纸折剪（PFC）测试显示出良好心理测量学属性。SEB-2000已展示出坚实的构念效度，包括与瑞典学业能力测试的关联。

**3.6 GMA变化**
北欧国家的研究揭示了弗林效应（Flynn effect）的正向和负向趋势。丹麦从1950年代至1980年代显著增长（低百分位更明显），2000年代初开始下降（负向弗林效应），可能与平等主义教育体系有关。芬兰1988-1997年增长后下降，可能归因于劣生生育率（dysgenic fertility）。挪威数据显示增长至1990年代中期，随后算术和词汇技能急剧下降，原因不是移民，而是社会和科技变化（如依赖数字工具和词汇测试过时）。近期挪威研究提示时间趋势可能受测试属性变化影响。瑞典从1970年代至1990年代初视空间分数显著增长，而言语测试停滞。

**4 讨论**
北欧国家自20世纪中期起长期使用GMA测试进行军事征兵，最初为男性设计，现已覆盖女性。这些测试反映了独特的历史与方法选择：双重目的（筛选与排序）。各国测试在初衷、管理程序和Stanine解释上相似，但存在差异：挪威、芬兰和丹麦测试基本未变，而瑞典测试多次修订；丹麦和瑞典现代版本基于现代测试理论，芬兰和挪威基于经典测试理论（CTT），但挪威近期工作也使用了IRT方法。心理测量学属性的报告有限，引发对其效度与信度的质疑。研究人员强调需谨慎解释现有GMA数据，因为测试属性可能随时间变化，项目漂移可能挑战早期结论。测试不仅服务征兵高利害决策，还为广泛社会与健康研究提供数据（如家庭研究、心理构念比较、健康结果等）。研究结果可能影响公共政策与医疗实践，因此确保测量工具准确性至关重要。公平性方面，测试开发于男性群体，现应用于女性（丹麦和芬兰自愿，挪威和瑞典强制），且人口构成变化（如移民背景）要求细致的测量特性研究。

**5 结论与未来研究与实践启示**
未来需进一步研究和发表此类评估的心理测量学属性，以支持其在军事选拔和利用GMA测试结果的更广泛研究中的持续使用。这些努力将维持测试的科学可信度，并确保为其他研究提供信息的数据及结论基于对GMA测试的准确解释。

联系信箱：

粤ICP备09063491号

热点排行