基于可解释人工智能的本科生学业成绩预测模型研究及其在孟加拉国教育背景下的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年04月23日 来源：Array 2.7

编辑推荐：

　　本研究针对孟加拉国高等教育中学生学业表现预测的难题，提出了一种融合可解释人工智能（XAI）技术的集成学习模型。研究人员通过收集872名本科生多维度数据，结合SMOTE数据平衡和特征缩放技术，构建了以随机森林（RF）和梯度提升（GB）为基模型、支持向量分类器（SVC）为元模型的堆叠集成分类器，最终实现86.38%的预测准确率，并利用SHAP和LIME技术解析关键影响因素（如课堂出勤率、家庭收入等）。该研究为教育决策提供了透明化工具，推动了机器学习在教育评估中的可信应用。

在高等教育质量评估领域，准确预测学生学业表现一直是教育工作者和政策制定者关注的焦点。孟加拉国近年来高等教育规模快速扩张，但缺乏针对本土教育环境的智能化评估工具。传统预测方法往往存在两大缺陷：一是模型可解释性差，难以识别关键影响因素；二是数据集多局限于单一院校，泛化能力不足。更严峻的是，现有研究多聚焦课程级预测，而忽视了对新生关键过渡期——第一学期表现的早期预警，错失了最佳干预时机。

为解决这些问题，来自国内高校的研究团队开展了一项创新性研究。他们收集了孟加拉国多所高校872名本科生的31维特征数据（涵盖社会经济、学习习惯、历史成绩等），开发了融合可解释人工智能技术的预测系统。研究采用SMOTETomek算法处理数据不平衡问题，通过标准缩放优化特征分布，并创新性地构建了RF-GB-SVC三层堆叠模型。该成果以86.38%的准确率超越传统机器学习算法，相关论文发表在《Array》期刊。

关键技术方面，研究团队主要运用了：1) 基于问卷调查的多院校数据采集；2) SMOTETomek和SMOTE-ENN数据平衡技术；3) 随机森林（RF）与梯度提升（GB）的集成架构；4) SHAP（Shapley Additive Explanations）和LIME（Local Interpretable Model-agnostic Explanations）可解释性分析框架。

研究结果部分：

数据预处理优化：对比实验显示，特征缩放使RF模型准确率从74.29%提升至78.29%，SMOTE-ENN技术进一步将GB分类器性能提升至85.30%。
模型性能比较：提出的堆叠集成模型在四类分类任务中表现最优（准确率86.38%），其AUC值在"Below Average"类别达0.96，显著优于单模型。
关键因素解析：SHAP分析揭示课堂出勤率（cls_attendence）是最具影响力的正向特征（SHAP值+0.71），而母亲职业（Mo_Occu）等家庭因素对差生预测贡献度达1.992。
实例解释：LIME技术展示了个体案例中，非科学阅读习惯（Non_Scin_reading）会使"优秀"类预测概率降低9%。

讨论与结论指出，该研究首次在孟加拉国教育背景下实现了：1) 多院校数据的跨机构预测；2) 学期级（非课程级）表现的早期预警；3) 通过XAI技术量化各因素贡献度。教育工作者可据此制定针对性干预策略，如对低出勤学生实施动态监测。研究同时发现，传统认为重要的经济因素（Mnthly_Income）影响力（+0.3227）反而低于学习习惯特征，这一发现对资源分配策略具有启示意义。

未来工作将扩展数据集覆盖更多地域和学科，并开发基于预测结果的个性化教学推荐系统。该成果为发展中国家教育质量提升提供了可复制的技术框架，其XAI应用范式也可拓展至医疗诊断等需要高解释性的决策场景。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号