《Thinking Skills and Creativity》:Interpretable machine learning reveals key determinants of creative thinking among East Asian students: Evidence from PISA 2022
编辑推荐:
本研究基于PISA2022东亚学生数据,运用SHAP可解释机器学习框架分析创造性思维的关键影响因素。结果表明学术表现(阅读、科学、数学)、家庭经济文化社会地位(ESCS)和性别为前五大预测因子,其中阅读和科学成绩呈线性正相关,而ESCS、数学成绩、共情能力等存在非线性阈值效应,创造性家庭氛围和预期教育程度呈负相关。交互分析显示阅读成绩与ESCS、科学成绩与性别、科学成绩与ESCS的交互作用最为显著。研究为东亚教育情境下创造性思维干预策略提供实证依据。
陈辉|邓宏基|于浩|董岩|王华珍
北京师范大学教育学院,中国北京市海淀区新街口外大街19号,邮编100875
摘要
本研究利用PISA 2022的数据,探讨了影响东亚中学生创造性思维的关键因素及其内在机制。通过采用严格的机器学习方法,我们比较了五种预测模型,并确定LightGBM在预测创造性思维方面最为准确。随后,我们运用SHAP(Shapley Additive Explanations)这一可解释的机器学习技术,量化了各特征对创造性思维的贡献,并将个体预测分解为可加效应,从而实现了全局和局部的可解释性。研究结果揭示了三个关键发现:1)学业成绩(阅读、科学和数学)、家庭经济、社会和文化地位(ESCS)以及性别是五个最重要的预测因素;2)虽然阅读和科学成绩与创造性思维之间存在近乎线性的正相关关系,但ESCS、数学成绩、同理心和数字能力中的自我效能感则表现出阈值效应——即在最佳值范围内,这些因素的积极影响最为显著。相比之下,积极的家庭氛围和预期的教育成就与创造性思维呈负相关;3)基于SHAP的交互作用分析显示,阅读成绩与ESCS、科学成绩与性别以及科学成绩与ESCS之间存在最强的交互作用。这些发现深化了我们对东亚教育背景下创造性思维多维度决定因素的理论理解,并为研究人员和实践者提供了实证依据,以设计有针对性的干预措施。
部分内容摘录
PISA中对创造性思维的定义
PISA将创造性思维定义为“能够有效地生成、评估和改进想法的能力,这些想法可以产生原创且有效的解决方案,促进知识的发展,并以富有影响力的方式表达想象力(OECD,2019)”。这一概念与“小C”创造力(Kaufman & Beghetto,2009)所描述的认知过程和结果是一致的。也就是说,这是15岁青少年能够实际展示的创造性思维形式。
研究框架
所有分析均使用Python 3.10进行,采用了scikit-learn、xgboost、lightgbm和shap等关键库来实施、调整和解释模型。本研究采用了一套严谨的可解释机器学习流程,系统地分析了影响创造性思维的因素,如图2所示。从PISA 2022数据集中提取东亚学生的数据后,系统地选择了预测变量,涵盖了个体和环境两个方面。
机器学习模型的性能比较
如表4所示,所有模型在100次数据分割中的预测性能均处于中等至高水平,解释方差(R2)介于0.60到0.64之间。ENR、RFR和SVR的性能略低(R2=0.60),而LightGBM的预测性能最高(R2=0.63)。LightGBM的最佳超参数组合为:n_estimators=200,max_depth=9,learning_rate=0.1。
实证贡献
本研究利用2022年PISA调查中的东亚学生数据,应用SHAP可解释机器学习框架这一新工具,系统地分析了影响创造性思维的关键因素及其内在机制。分析涵盖了三个层面:全局特征重要性(平均|SHAP|值)、局部特征方向性和异质性(个体SHAP分布)以及双变量特征交互作用(SHAP交互值)。我们的方法超越了以往的研究。
结论
本研究利用PISA 2022的东亚学生数据,并采用SHAP可解释机器学习框架,系统地探讨了中学生创造性思维的关键决定因素及其内在机制。尽管本研究中确定的一些关键因素与PISA结果文档中提到的因素一致,但它们在东亚背景下的非线性及相互依赖的关系为设计更有效的干预措施提供了更为精细的依据。
作者声明
对于题为“可解释的机器学习揭示东亚学生创造性思维的关键决定因素:来自PISA 2022的证据”的手稿,各位作者的贡献如下:
陈辉:概念化、方法论、数据分析、数据整理、初稿撰写
邓宏基:数据分析、可视化、初稿撰写
于浩:数据整理、验证、审稿与编辑
董岩:概念化、研究指导、资金筹措
资助
本研究得到了中国国家自然科学基金(项目编号[62577014)和北京师范大学博士研究生跨学科研究基金(BNUXKJC2401)的支持。
未引用的参考文献
Li等人,2025年;Ramirez和Ganaden,2008年;Chen等人,2025年
CRediT作者贡献声明
陈辉:初稿撰写、方法论设计、研究实施、概念化。邓宏基:初稿撰写、数据分析、可视化。于浩:研究实施。董岩:研究指导、资金筹措。王华珍:审稿与编辑。
利益冲突声明
本研究未发现任何可能影响论文结果的已知财务利益冲突或个人关系,因为我们仅将其作为研究计划的一部分来开展。
陈辉是北京师范大学教育学院的博士生,他的研究兴趣包括机器学习、学习分析和人工智能教育(AIED)。