
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型展现与人类相当的个体与集体创造力:跨领域多任务评估
【字体: 大 中 小 】 时间:2025年06月18日 来源:Thinking Skills and Creativity 3.5
编辑推荐:
研究人员针对LLMs(大型语言模型)在职场应用中创造力评估不全面的问题,通过13项跨领域(发散思维、问题解决、创意写作)创造性任务,系统评估了GPT-3.5、GPT-4等5个模型的个体与集体创造力。发现最佳LLMs(Claude和GPT-4)创造力百分位达52%,10次响应相当于8-10人集体创造力,为AI在创意工作中的应用提供了量化依据。该研究发表于《Thinking Skills and Creativity》,对理解AI与人类创造力协同具有重要意义。
在人工智能技术迅猛发展的今天,大型语言模型(LLMs)如GPT系列已展现出惊人的文本生成能力,但关于它们是否真正具备人类水平的创造力仍存在广泛争议。传统观点认为创造力是人类独有的特质,但随着LLMs在内容创作、产品设计等领域的应用激增,准确评估其创造力水平已成为关乎未来工作形态的关键问题。现有研究多局限于单一任务或领域,且缺乏对LLMs集体创造力的系统评估,这导致我们难以全面认识AI在创造性工作中的实际潜力。
针对这一研究空白,来自中国的研究团队在《Thinking Skills and Creativity》发表了开创性研究。研究人员设计了包含13项任务的评估体系,涵盖发散思维、问题解决和创意写作三大领域,通过严格的实验设计比较了GPT-3.5、GPT-4等5个主流LLMs与467名人类参与者的创造力表现。所有任务响应均采用共识评估技术(Consensual Assessment Technique)由人类评委盲评,确保了评估的客观性。
研究采用了多维度技术方法:1)设计原创性评估任务避免数据污染;2)使用温度参数(temperature)调控LLMs输出的多样性;3)通过余弦相似度和Levenshtein距离量化响应多样性;4)开发迭代抽样算法评估集体创造力;5)采用z-score线性等值处理跨轮次评分。人类数据来自高利害的硕士入学评估,确保了参与者表现的真实性。
在个体创造力方面,研究发现:
在集体创造力方面,研究获得突破性发现:
讨论部分指出,该研究首次系统证实LLMs可达到小规模人类团队的创造力水平,对职场应用具有重要启示:1)LLMs可作为高效创意助手,特别适合发散思维和问题解决场景;2)创意写作等需要情感共鸣的任务仍需人类主导;3)温度参数主要影响响应多样性而非创造力水平。研究也揭示了局限性,如未进行深度提示工程(prompt engineering)、人类样本时间受限等。
这项研究为理解AI创造力提供了多维度的评估框架,其创新性体现在:1)采用真实职场评估场景的人类数据;2)首次量化LLMs的集体创造力;3)发现新颖性与实用性的内在权衡规律。随着技术迭代,未来LLMs的创造力边界还将持续拓展,这项研究为AI与人类协同创新的模式设计奠定了重要基础。
生物通微信公众号
知名企业招聘