任务时间与指导语如何影响人类与AI在创造性思维任务中的表现：一项关于替代用途任务和远距离联想任务的复制与扩展研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月21日 来源：Scientific Reports 3.8

编辑推荐：

　　本研究针对人工智能(AI)与人类创造力比较研究中存在的局限性，通过改进实验设计(延长任务时间、修改指导语)和增加远距离联想任务(RAT)，系统评估了人类与AI在发散思维(替代用途任务AUT)和聚合思维任务中的表现。研究发现AI在AUT任务的平均语义距离和主观评分上显著优于人类，但修改指导语后人类在最高分指标上与AI无显著差异；在RAT任务中AI(除Bard外)整体表现优于人类。该研究为理解创造力评估指标和方法对比较结果的影响提供了重要证据。

随着人工智能技术的迅猛发展，关于AI是否具备人类特有创造力的讨论愈发热烈。ChatGPT等大型语言模型(LLM)已能生成诗歌、艺术作品和文章，引发了对人类独特性的质疑。然而现有研究存在明显局限：多数聚焦发散思维的替代用途任务(AUT)，忽视聚合思维；样本代表性不足；任务指导语和时间设置可能不利于人类发挥创造力。更关键的是，不同研究结果存在矛盾——有的显示AI更具原创性，有的则表明人类在某些创造力指标上更优。这些矛盾可能源于研究方法差异，但尚未有研究系统考察任务参数对比较结果的影响。

德国维尔茨堡大学人类计算机媒体研究所的Astrid Carolus团队在《Scientific Reports》发表研究，通过复制Koivisto和Grassini(2023)的实验并改进其局限，系统比较了人类与AI在创造性任务中的表现。研究采用2×2设计：两种AUT任务条件(原始30秒/强调质量 vs 修改版2分钟/强调质量和数量)和新增的RAT任务。人类参与者(n=150)和四种AI模型(ChatGPT3.5/4、CopyAI、Bard)完成实验，使用语义距离分析和主观评分评估表现。

关键技术方法包括：(1)采用标准化的AUT和RAT任务评估创造力的不同维度；(2)使用SemDis平台计算回答与刺激词间的客观语义距离；(3)三位盲评员对回答进行主观创造性评分；(4)通过混合线性模型分析控制流畅性(回答数量)的影响；(5)对AI输出进行标准化处理以匹配人类回答格式。

在AUT任务中，AI在平均语义距离和主观评分上显著优于人类，这与先前研究一致。但深入分析发现关键差异：当使用最高分(而非平均分)指标时，修改指导语条件下人类与AI无显著差异。具体而言，原始条件下AI的最高语义距离得分(β=0.02,p<0.001)和最高主观评分(β=0.32,p<0.001)都显著更高；而在修改条件下，人类表现提升至与AI相当的水平。这表明任务参数显著影响比较结果。

在RAT任务中，AI整体表现优异(平均18.03分 vs 人类13.24分，p=0.004)，但存在模型差异：ChatGPT4表现最佳(24.2分)，而Bard最差(3.9分)。难度分析显示AI优势主要体现在中高难度项目上。值得注意的是，AI在RAT任务中表现出"天花板效应"，除Bard外其他模型在简单项目上已接近满分。

研究讨论指出三个关键发现：首先，创造力评估指标的选择至关重要——使用平均分时AI占优，但考察最佳表现时人类在优化条件下可媲美AI。其次，任务参数显著影响结果，延长时间和强调数量质量的指导语能提升人类表现。第三，不同AI模型表现差异巨大，Bard在两项任务中都表现不佳，提示比较研究需考虑模型异质性。

该研究对创造力研究和AI评估具有多重意义：方法学上，确立了任务参数在人类-AI比较中的调节作用；理论上，证实发散和聚合思维任务反映不同的认知能力；应用上，为教育和工作场景中优化人类创造力培养提供依据。研究也指出AI可能通过训练数据"记忆"标准答案，其"创造力"本质仍需谨慎解读。随着AI技术快速迭代，这类比较研究需要持续更新方法和理论框架。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号