图神经网络与集成学习融合的教育数据挖掘:跨场景学习者绩效预测研究

【字体: 时间:2025年06月24日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对教育数据中复杂关系建模与类别不平衡的挑战,研究人员创新性地将图神经网络(GNN)与XGBoost/LightGBM集成,在Assistments等5个跨场景数据集上构建知识图谱。实验表明GNN基线AUC达0.87,集成后提升至0.93,为构建可扩展的个性化学习系统提供新范式。

  

在教育数字化转型浪潮中,精准预测学习者表现成为优化教学策略的关键。传统方法如知识追踪(KT)、项目反应理论(IRT)虽广泛应用,却难以捕捉学生-资源-技能间的复杂网络关系。更棘手的是,教育数据普遍存在跨场景异构性(如Assistments与Moodle平台差异)和类别失衡(正确答题占主导)两大瓶颈。现有解决方案多依赖混合架构,将图神经网络(GNN)与传统方法耦合,既限制模型泛化能力,又鲜少探索GNN自主潜力。

为此,摩洛哥教育部"智能学习"项目支持下,研究人员开展了一项突破性研究。通过系统评估图卷积网络(GCN)、图注意力网络(GAT)和GraphSAGE在5个数据集的表现,首次构建了课程无关的通用知识图谱框架。创新性地将GNN嵌入与XGBoost/LightGBM集成,在保持图结构学习优势的同时,有效缓解了数据失衡问题。该成果发表于《Expert Systems with Applications》,为教育人工智能领域树立了新标杆。

关键技术包括:1) 基于Assistments17等5个公开数据集构建异构知识图谱;2) 采用边分类与表示学习技术生成图嵌入;3) 对比GCN/GAT/GraphSAGE三种GNN变体;4) 集成XGBoost与LightGBM进行特征增强;5) 通过AUC/F1-score等指标评估模型在平衡/失衡场景下的表现。

研究结果部分:
<方法学>
设计多阶段实验框架,先通过GNN提取图结构特征,再输入树模型进行集成。特别针对Statics数据集的高失衡比(1:9),采用分层采样优化召回率。

<结果>
基线测试显示GNN单独应用时AUC达0.87,其中GraphSAGE在跨数据集迁移中表现最优。集成后模型在Moodle-Morocco数据集上F1-score提升21%,证明其对非结构化教育数据的适应能力。

<讨论>
突破性地发现GAT在捕捉长程依赖(如跨学期知识关联)方面具有独特优势,而LightGBM对稀疏特征(如间断学习记录)的处理效率比XGBoost高37%。这种"GNN特征提取+树模型决策"的架构,为教育资源有限的地区提供了轻量级解决方案。

结论部分强调,该研究首次证实纯GNN架构在教育预测中的独立价值,打破必须与知识追踪等传统方法混合的思维定式。通过知识图谱边缘特征的动态更新机制,模型可实时适应新加入的学习者数据。特别在摩洛哥等发展中地区的在线教育平台测试显示,该方案在低算力设备上仍保持85%的预测准确率,为教育公平提供技术保障。未来可探索图Transformer架构与时序预测的结合,进一步优化对学习路径动态变化的建模能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号