编辑推荐:
为探究在线招募群体对人脸识别能力测试成绩的影响,研究人员对比测试,发现 MTurk 参与者分数较低,还给出 GFMT22新规范分数,对研究和应用意义重大。
在心理学研究中,网络测试日益重要,亚马逊 Mechanical Turk(MTurk)是热门平台之一。它能大规模测试认知和感知能力,招募地理分布广泛、多样化的参与者群体,还能接触特殊群体,成本较低且人口统计学多样性高。然而,MTurk 存在数据质量问题,如参与者注意力不集中、数据无意义、欺诈性参与等,这些问题会影响实验效果和测量结果。虽然严格的排除标准能缓解部分问题,但效果有限。
在人脸识别能力测试方面,此前研究表明不同在线平台参与者的测试成绩存在差异。例如,MTurk 参与者在一些测试中的准确率低于实验室样本和其他平台参与者。为了深入探究在线招募群体对人脸识别能力测试成绩的影响,澳大利亚新南威尔士大学(The University of New South Wales)和昆士兰大学(The University of Queensland)的研究人员开展了相关研究,研究成果发表在《Scientific Reports》上。
研究人员采用了多种测试方法,招募了不同来源的参与者群体。测试方法包括格拉斯哥面部匹配测试 2(GFMT2)、剑桥面部记忆测试扩展版(CFMT+)、模特面部匹配测试(MFMT)等,这些测试用于评估面部身份处理能力。参与者群体涵盖了通过 MTurk、Prolific 招募的在线样本,新南威尔士大学面部研究注册中心(UNSW Face Research Registry)的在线志愿者,以及新南威尔士大学的本科生(进行线下测试)。
研究结果如下:
- GFMT2 测试分数差异:不同招募方式得到的参与者群体在 GFMT2 的两个子测试(GFMT2-S、GFMT2-H)中平均得分差异显著。MTurk 参与者得分低于其他群体,Prolific 参与者和线下测试的新南威尔士大学学生得分相当,但均比 UNSW 面部研究注册中心群体低约 5 个百分点。
- CFMT + 和 MFMT 测试分数差异:在 CFMT + 和 MFMT 测试中,MTurk 参与者得分比 Prolific 参与者低约 10 个百分点。使用注意力检查筛选后,MTurk 参与者的 CFMT + 分数有所提高,但仍低于 Prolific 参与者,且 MFMT 分数变化不大。
- GFMT2 心理测量属性:GFMT2 子测试具有良好的心理测量属性。测试 - 重测信度高,即使在首次测试 6 周后的重测中,相关性依然显著;内部信度良好,Prolific 样本中各子测试的 Cronbach's alpha 值较高;收敛效度良好,与其他面部识别测试相关性强;对参与者年龄敏感,36 岁左右测试成绩最佳;在识别超识别者方面具有较高诊断价值,GFMT2-H 在识别超识别者上比 GFMT2-S 更有效,两者结合使用诊断价值更高。
研究结论和讨论部分指出,MTurk 参与者在人脸识别能力测试中的成绩普遍比其他群体低约 10 个百分点,即便采用更严格的数据筛选,仍无法使 MTurk 参与者的成绩与其他群体一致。造成这种差异的原因可能包括参与者动机、任务参与度、测试条件或能力水平的差异等。研究人员建议,由于 Prolific 样本具有相对异质性和较高的任务参与度,研究人员应采用 Prolific 样本的分数作为 GFMT2 测试成绩的规范测量标准。GFMT2-S 和 GFMT2-H 是可靠且有效的陌生面孔匹配能力测量工具,可与面部记忆测试互补,全面评估面部身份处理能力,在实际应用和理论研究中都具有重要价值。未来研究可以进一步探索 GFMT2-S 和 GFMT2-L 在识别面部身份处理能力受损个体方面的最佳用途。
总体而言,该研究表明不同参与者群体的规范性分数存在差异,研究人员在使用测试成绩时应考虑测试样本的具体情况。这项研究为后续人脸识别能力相关研究和实际应用提供了重要的参考依据,对准确评估个体面部识别能力、筛选特殊人才以及理解相关认知机制具有重要意义。