验证基于大语言模型(LLM)的替代用途测试评分在不同年龄段的应用效果

《Thinking Skills and Creativity》:Validating LLM-Based Alternative Uses Test Scoring Across Ages

【字体: 时间:2025年11月20日 来源:Thinking Skills and Creativity 4.5

编辑推荐:

  本研究验证了未微调的大型语言模型(LLMs)在跨儿童、青少年及成人群体中自动评分Guilford替代用途测试(AUT)灵活性和原创性的有效性。结果显示LLMs与人类评分高度一致(相关系数r>.78),无性别偏见,支持大规模创造力评估。

  在当今快速发展的科技环境中,创造力的评估已经成为一个备受关注的话题。创造力被视为推动创新和解决复杂问题的核心能力之一,尤其在教育、科研和企业领域中发挥着重要作用。然而,传统的创造力测试方法仍然依赖于人工评分,这不仅限制了评估的效率,也增加了成本。为了解决这一问题,研究人员开始探索利用人工智能技术,特别是大型语言模型(LLMs),来实现自动化评分。本文的研究正是基于这一背景,探讨是否可以使用通用型LLMs来评估儿童、青少年和成人阶段的创造力测试中的灵活性和原创性,而无需对模型进行特定领域的微调。

研究中,作者选取了三个之前收集的数据集,分别涉及小学三年级至四年级的学生、九年级学生以及成年人。这些数据集原本用于不同的研究目的,但在本研究中被重新利用,以验证通用型LLMs在不同年龄段对创造力测试中两个关键维度的评分能力。具体来说,数据集中包括了对“椅子”、“一次性纸杯”以及“砖块”和“回形针”等日常物品的多种用途的描述。通过使用OpenAI的GPT-4o、GPT-4.1和O3模型,研究人员对这些数据集进行了重新评分,并将自动评分结果与专家评分进行了对比。此外,研究还引入了一个领域特定的微调基线模型(OCSAI),作为对比的参考标准。

在评估灵活性(即想法的分类多样性)时,研究发现通用型LLMs能够与人类评分高度一致,平均相关系数达到了0.87,而组内相关系数(ICC)更是高达0.92。这意味着,这些模型在识别不同类别的想法方面表现优异,与人类评分者在分类上重合度高达75%至85%。这一结果表明,LLMs在评估灵活性方面具有较强的可操作性,可以作为替代人工评分的有效工具。

对于原创性(即想法的罕见程度),研究同样取得了令人鼓舞的成果。在儿童组中,相关系数达到了0.78;在青少年组中,相关系数为0.73;而在成年人组中,相关系数更是达到了0.80。这些数值不仅显示了LLMs在评估原创性方面的有效性,还表明其表现甚至可以与经过微调的OCSAI模型相媲美。这一发现为大规模应用LLMs进行创造力评估提供了重要的理论支持。

研究还关注了评分结果在不同年龄段的分布情况。结果显示,灵活性和原创性的得分模式符合理论上的发展规律,且没有明显的性别偏差。这一发现尤为重要,因为它表明,无论性别如何,通用型LLMs都能公平地评估创造力表现。此外,研究中采用的多轮评分协议有效减少了LLMs输出的随机性,从而提高了评分的稳定性和可靠性。这一方法无需对模型进行再训练,即可实现对大规模数据集的自动化评分,为教育评估和创造力研究提供了新的可能性。

在方法论上,本研究采用了一种基于上下文提示的少样本学习策略。这意味着,模型在没有经过特定领域微调的情况下,仅通过少量的示例和年龄相关的指令,就能准确理解并应用评分标准。这种方法不仅降低了模型训练的成本,也提高了评分的可扩展性。通过这种方式,研究人员能够在不同年龄段和不同模型架构之间进行比较,验证LLMs在创造力评估中的普遍适用性。

本研究的意义在于,它为创造力评估提供了一种新的工具和方法。传统的创造力测试需要大量的人工参与,这不仅耗费时间和精力,还可能导致评分结果的主观性和不一致性。而通过使用通用型LLMs,研究人员能够在短时间内完成大规模的评估任务,同时保持评分的客观性和一致性。这种自动化评分方法不仅适用于课堂环境,也可以应用于大规模的创造力研究,从而推动相关领域的进一步发展。

此外,本研究还强调了模型在不同年龄段的表现。儿童、青少年和成人在创造力表现上存在显著差异,这种差异不仅体现在他们产生想法的数量和多样性上,还体现在想法的罕见性和独特性上。通过对比不同年龄段的评分结果,研究人员能够更好地理解创造力的发展轨迹,并为不同年龄段的创造力评估提供更精确的工具。例如,儿童在灵活性和原创性上的得分可能较低,但随着年龄的增长,这些能力会逐渐提高,这一趋势在研究结果中得到了验证。

在实际应用中,这种自动化评分方法可以为教育工作者提供即时的反馈,帮助他们更好地了解学生在创造力方面的表现。同时,它也可以为研究者提供一种高效的数据收集和分析工具,使得大规模的创造力研究成为可能。尤其是在教育资源有限的地区,这种方法能够显著提高评估的效率和公平性,让更多学生受益于创造力教育。

然而,尽管本研究展示了通用型LLMs在创造力评估中的潜力,但同时也指出了其局限性。例如,在某些情况下,模型可能无法准确捕捉到人类评分者所理解的细微差别,尤其是在评估原创性时,模型可能难以判断某些想法是否真正具有独特性。因此,未来的研究需要进一步探索如何优化模型的性能,使其在更多复杂和多样的情境下都能准确评估创造力。

总的来说,本研究为利用通用型LLMs进行创造力评估提供了一个重要的验证框架。通过对比不同模型和不同年龄段的评分结果,研究人员不仅证明了LLMs在评估灵活性和原创性方面的有效性,还为未来的创造力研究和教育实践提供了新的思路和方法。这一研究的成果表明,随着人工智能技术的不断进步,创造力评估的效率和公平性有望得到显著提升,从而为教育和科研领域带来更多的可能性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号