大型语言模型展现与人类相当的个体与集体创造力：跨领域多任务评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月18日 来源：Thinking Skills and Creativity 3.5

编辑推荐：

　　研究人员针对LLMs（大型语言模型）在职场应用中创造力评估不全面的问题，通过13项跨领域（发散思维、问题解决、创意写作）创造性任务，系统评估了GPT-3.5、GPT-4等5个模型的个体与集体创造力。发现最佳LLMs（Claude和GPT-4）创造力百分位达52%，10次响应相当于8-10人集体创造力，为AI在创意工作中的应用提供了量化依据。该研究发表于《Thinking Skills and Creativity》，对理解AI与人类创造力协同具有重要意义。

在人工智能技术迅猛发展的今天，大型语言模型（LLMs）如GPT系列已展现出惊人的文本生成能力，但关于它们是否真正具备人类水平的创造力仍存在广泛争议。传统观点认为创造力是人类独有的特质，但随着LLMs在内容创作、产品设计等领域的应用激增，准确评估其创造力水平已成为关乎未来工作形态的关键问题。现有研究多局限于单一任务或领域，且缺乏对LLMs集体创造力的系统评估，这导致我们难以全面认识AI在创造性工作中的实际潜力。

针对这一研究空白，来自中国的研究团队在《Thinking Skills and Creativity》发表了开创性研究。研究人员设计了包含13项任务的评估体系，涵盖发散思维、问题解决和创意写作三大领域，通过严格的实验设计比较了GPT-3.5、GPT-4等5个主流LLMs与467名人类参与者的创造力表现。所有任务响应均采用共识评估技术（Consensual Assessment Technique）由人类评委盲评，确保了评估的客观性。

研究采用了多维度技术方法：1）设计原创性评估任务避免数据污染；2）使用温度参数（temperature）调控LLMs输出的多样性；3）通过余弦相似度和Levenshtein距离量化响应多样性；4）开发迭代抽样算法评估集体创造力；5）采用z-score线性等值处理跨轮次评分。人类数据来自高利害的硕士入学评估，确保了参与者表现的真实性。

在个体创造力方面，研究发现：

基准测试显示：五款LLMs平均创造力位于人类参与者的46百分位，其中Claude和GPT-4表现最佳（52百分位），GPT-3.5最弱（37百分位）。LLMs在发散思维（55百分位）和问题解决（59百分位）表现优异，但在创意写作（25百分位）相对较弱。
发散思维任务中：LLMs平均生成8.85个有效想法（人类3.68个），但存在新颖性（novelty）与实用性（usefulness）的负相关（r=-0.43至-0.81）。GPT-4的最佳创意显著优于人类。
问题解决任务中：结果呈现模型依赖性，GPT-4在社会问题解决三项任务均优于人类，而GPT-3.5在科学问题解决两项任务表现较差。
创意写作任务中：人类在广告创作和表情符号故事任务中全面占优，仅GPT-4在关键词故事任务超越人类。LLMs生成内容的多样性显著低于人类（p<0.05）。

在集体创造力方面，研究获得突破性发现：

当汇集所有响应时，人类贡献了约67%的顶级创意，LLMs占33%。但在典型脑力激荡小组规模（≤10人）的模拟中，10次LLMs响应相当于8-10人的集体创造力。
增量分析显示：每增加2个LLMs响应相当于增加1个人类成员。这种替代关系在问题解决领域最优（0.79响应/人），创意写作领域最差（需7响应/人）。
模型比较发现：GPT-4和Claude的集体创造力最强（均等效10人），GPT-3.5最弱（等效8人）。

讨论部分指出，该研究首次系统证实LLMs可达到小规模人类团队的创造力水平，对职场应用具有重要启示：1）LLMs可作为高效创意助手，特别适合发散思维和问题解决场景；2）创意写作等需要情感共鸣的任务仍需人类主导；3）温度参数主要影响响应多样性而非创造力水平。研究也揭示了局限性，如未进行深度提示工程（prompt engineering）、人类样本时间受限等。

这项研究为理解AI创造力提供了多维度的评估框架，其创新性体现在：1）采用真实职场评估场景的人类数据；2）首次量化LLMs的集体创造力；3）发现新颖性与实用性的内在权衡规律。随着技术迭代，未来LLMs的创造力边界还将持续拓展，这项研究为AI与人类协同创新的模式设计奠定了重要基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号