
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习的高中生物理教育多维度评估数据集SPHERE的构建与应用研究
【字体: 大 中 小 】 时间:2025年06月13日 来源:Scientific Data 5.8
编辑推荐:
本研究针对物理教育研究(PER)中缺乏专用机器学习数据集的现状,开发了首个涵盖概念理解、科学能力与学习态度的多维度高中生物理表现数据集SPHERE。研究人员通过9种研究型评估工具(RBAs)采集497名学生的多维度数据,利用随机森林(RF)模型实现学生期末表现的精准预测(AUROC=0.913),其性能显著优于教师主观判断(TEACHPRED)。该数据集填补了PER领域专用数据资源的空白,为智能化学习分析提供了新范式。
在物理教育领域,如何实现对学生学习过程的精准监测与个性化干预始终是重大挑战。传统评估方式依赖教师经验判断,存在主观性强、反馈滞后等问题。尽管机器学习(ML)技术在教育数据挖掘(EDM)中展现出潜力,但物理教育研究(PER)领域长期缺乏专门设计的标准化数据集,现有通用教育数据集如OULAD难以捕捉物理学科特有的认知维度。这种数据缺失严重制约了智能评估工具在物理教育中的应用发展。
为解决这一瓶颈,来自苏拉威西大学、日惹国立大学等印尼多所高校的研究团队开展了开创性工作。他们历时两个学期,通过9种经过验证的研究型评估工具(RBAs),系统采集了497名高中生在力学、流体力学、热力学等物理学科的概念理解(FCI、FMCE等)、科学实验能力(SAAR)和学习态度(CLASS)等多维度数据,构建了全球首个专门针对PER的标准化数据集SPHERE。研究团队不仅验证了该数据集的心理测量学特性(CFI>0.90, Cronbach's α>0.8),更通过随机森林建模实现了对学生期末表现的精准预测,相关成果发表在《Scientific Data》期刊。
研究采用三项关键技术方法:(1)多中心数据采集:在4所公立高中收集497名11年级学生的多维度数据,包括8个概念测试、1个实验评估和1个态度量表;(2)研究型评估工具(RBAs)标准化应用:采用PhysPort平台验证的9种评估工具,经印尼语翻译和专家验证(Aiken指数>0.8);(3)机器学习建模:使用随机森林算法构建四类预测模型,通过10折交叉验证评估性能。
【背景与数据收集】
研究团队详细记录了数据采集的时间框架(如图1所示),分两个学期完成所有评估。第一学期重点测量牛顿力学概念(FCI、FMCE),第二学期扩展至转动力学(RRMCS)、流体力学(FMCI)等进阶内容,并通过衍射实验(实验装置见图2)评估科学能力。所有评估均采用谷歌表单标准化采集,确保数据一致性。

【技术验证】
通过验证性因子分析(CFA)证实所有量表的构念效度(CFI=0.957-0.999),内部一致性信度(Cronbach's α=0.815-0.977)均达到心理测量学标准。特别值得注意的是,光衍射实验(学生操作场景见图3)的评估工具SAAR展现出优异的信效度(α=0.868),为实验能力量化提供了可靠依据。


【机器学习应用】
研究构建的四类随机森林模型中,仅使用RBA数据的RF2模型表现最优(AUROC=0.913),其关键预测因子为流体力学概念(FMCI)和热力学评估(TCE)成绩。图5所示的变量重要性分析揭示,科学能力(SAAR)和态度量表(CLASS)得分对预测的贡献度超过传统人口统计学因素。与教师预测(TEACHPRED)相比,机器学习模型在特异性(0.707 vs 0.466)和总体准确率(0.806 vs 0.688)上均展现出显著优势。

这项研究通过SPHERE数据集的创建与验证,实现了三项重要突破:首先,填补了PER领域缺乏专用机器学习数据集的空白,其多维度评估框架涵盖认知、技能和情感领域,远超传统单一分数评估;其次,证实机器学习模型在预测准确性上显著优于教师经验判断,为智能化学习预警提供了实证基础;最后,建立的数据采集标准和方法学框架(如RBA的本地化应用流程)为后续跨国研究提供了可复制的范式。研究团队特别指出,未来可通过学习管理系统(LMS)持续扩展数据集规模,进一步优化预测模型的泛化能力。该成果不仅推动了PER与人工智能的交叉融合,更为实现联合国可持续发展目标(SDGs)中的优质教育目标提供了技术支撑。
生物通微信公众号
知名企业招聘