人工智能在创造性问题解决中的表现:超越发散思维的GPT-4o评估研究

【字体: 时间:2025年08月10日 来源:Journal of Creativity CS2.1

编辑推荐:

  本研究针对AI在创造性过程中是否仅擅长发散思维的争议,通过让GPT-4o参与未来问题解决国际项目(FPSPI)的世界解决方案挑战赛,与68组7-9年级学生团队同台竞技。研究采用盲评方式评估AI在有效性、影响力、人文关怀、创造力和行动计划开发等维度的表现,结果显示AI在所有指标中均位列前15%,尤其在有效性、影响力和行动计划开发方面显著优于人类,但在创造性强度指标上未达显著差异。该研究为理解AI在完整创造性过程中的能力边界提供了新证据,对AI辅助创新和教育应用具有重要启示意义。

  

在人工智能技术突飞猛进的今天,关于AI是否具备真正创造力的讨论愈发热烈。虽然大量研究表明,以GPT-4为代表的大型语言模型(LLM)在标准化创造力测试(如托兰斯创造性思维测试TTCT)中表现优异,甚至超越人类水平,但这些研究多聚焦于发散思维(Divergent Thinking)任务,如替代用途测试(AUT)。然而,完整的创造性过程不仅需要天马行空的想象力,更需要精准的判断力和问题解决能力——这正是收敛思维(Convergent Thinking)的领域。AI在这方面的表现究竟如何?这个问题不仅关乎技术发展,更影响着未来人机协作的创新模式。

维尔纽斯大学商学院(Vilnius University, Business School, Lithuania)的研究团队设计了一项别开生面的实验:让OpenAI的GPT-4o模型"匿名"参加未来问题解决国际项目(FPSPI)举办的2023年世界解决方案挑战赛(WSC)。这项赛事要求学生团队针对"人工智能未来应用的影响"这一开放式问题,完整运用六步创造性问题解决方法(CPS),包括问题识别、解决方案生成和行动计划制定等环节。研究人员将GPT-4o生成的三份方案与68组7-9年级学生作品混合,由32名经过培训的评委进行盲评,从有效性、影响力、人文关怀、创造性强度和行动计划开发五个维度进行打分。

研究采用了基于共识评估技术(CAT)的评分方法,通过多轮盲评确保结果客观性。评委们不知道哪些作品来自AI,仅根据标准化评分标准进行评估。统计方法上,针对样本量不平衡(68vs3)和方差异质性的特点,研究主要采用Welch不等方差t检验,并辅以置换检验和bootstrap置信区间进行稳健性验证。

研究结果显示,AI提交的方案在所有评估指标中均位列前15%。具体而言:在有效性方面,AI平均得分8.78±0.38,显著高于学生组的4.80±2.45;在影响力指标上,AI获得8.67±0.88分,同样显著优于学生组的4.90±2.43;人文关怀维度也呈现类似趋势(8.67±0.58vs5.13±2.44)。最引人注目的是行动计划开发项目,AI以17.11±1.68的高分远超学生组的9.61±5.28。唯一未达统计学显著差异的是创造性强度指标(7.56±1.35vs4.98±2.46,p=0.06361)。

AI在完整创造性过程中的表现引发了对传统创造力认知的挑战。研究表明,GPT-4o不仅能产生新颖想法,还能有效评估这些想法的适用性,并制定详细的实施方案——这些能力以往被认为是人类创造力的专属领域。特别是在解决"棘手问题"(wicked problem)时,AI展现出整合发散与收敛思维的综合能力,其生成的解决方案被评委认为更具系统性和可操作性。

这项研究对教育领域具有重要启示。FPSPI等创新教育项目的核心目标是培养学生的创造性问题解决能力,而AI可以成为这一过程中的"数字导师"。例如,在头脑风暴环节,AI能帮助克服群体思维(groupthink)和认知固着(cognitive fixedness);在方案评估阶段,AI的客观性可弥补人类判断中的主观偏差。研究者特别指出,AI的"非评判性"特质可能创造更开放的思想交流环境,这对发展"小c创造力"(mini-C/little-C creativity)尤为有益。

关于AI创造力的本质,研究提出了发人深省的思考。与传统认为AI仅能重组已有知识不同,GPT-4o在解决全新复杂问题时表现出的系统思维和决策能力,暗示着某种形式的"算法创造力"可能存在。虽然AI缺乏人类意义上的意图性(intentionality)和真实性(authenticity)——这也是Runco(2023)主张区分"人工创造力"(artificial creativity)与人类创造力的关键依据——但其在创造性过程中的功能性表现已不容忽视。

这项发表在《Journal of Creativity》上的研究打破了AI创造力研究的传统范式,首次在真实创造性问题解决情境中系统评估了AI的表现。其发现不仅拓展了我们对LLM能力边界的认识,更为人机协同创新提供了实证基础。随着AI在更多创造性领域展现潜力,重新定义和测量创造力的时代或许已经到来。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号