基于机器学习与空间分析的大学生研究素养评估及预测因素研究
【字体:
大
中
小
】
时间:2025年10月14日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对当前学术出版生态中普遍存在的"不发表就灭亡"压力及掠夺性期刊泛滥问题,首次系统评估了孟加拉国大学生和毕业生的研究素养水平。研究团队采用横断面调查结合机器学习与GIS空间分析技术,发现超过半数参与者研究素养不足,并识别出校外研究课程参与度、对大学研究课程满意度及研究相关职业 engagement 为关键预测因子。研究成果为低中等收入国家提升学术诚信与研究能力提供了重要实证依据。
在当今学术出版格局剧变的背景下,出版物和期刊数量激增,"不发表就灭亡"的文化压力导致了许多不良实践。许多研究人员因机构压力和研究素养不足而选择在掠夺性期刊上发表成果。尽管已有大量研究关注对掠夺性期刊的认知,但整体研究素养仍未被充分探索。
本研究首次全面评估研究素养,结合地理信息系统(GIS)和机器学习技术与传统统计分析。研究采用横断面调查方法,通过问卷收集社会人口统计学、学术信息、研究培训与经验以及研究素养等信息。研究发现,超过一半的参与者研究素养较差。较高研究素养的显著预测因素包括对大学教育中研究课程的满意度、校外研究课程的参与度以及研究相关的职业参与。机器学习分析确定,参加校外研究课程是影响研究素养的最重要因素,而家庭成员中有研究人员的影响最小。随机森林(Random Forest)和CatBoost模型在预测素养方面表现强劲,准确率分别达到73.04%和71.57%,精确度值分别为73.29%和71.69%,对数损失值较低,分别为0.57和0.56。基于GIS的空间分析揭示了研究素养的区域差异(χ2=9.234, p=0.236),某些行政区表现出较低素养的较高流行率。
本研究强调,相当一部分参与者缺乏研究素养,这与多种因素相关。研究结果表明需要实施干预计划,以增强学生和专业人士的研究实践和意识,培养卓越的学术文化。
为开展此项研究,作者主要应用了以下几种关键技术方法:通过横断面调查设计结合结构化问卷收集508名孟加拉国大学生及毕业生的多维度数据;利用逻辑回归等传统统计方法与随机森林(Random Forest)、CatBoost等六种机器学习算法进行预测建模与特征重要性分析;采用R语言的"bangladesh"包进行地理信息系统(GIS)空间可视化,揭示研究素养的区域分布特征。
研究结果显示参与者中存在显著的研究素养差距。具体而言,51.2%的参与者被归类为具有较低的研究素养。关于特定知识领域,25.8%的受访者报告对同行评审过程不熟悉,而31.7%对掠夺性期刊不熟悉。24.8%的参与者缺乏对开放获取出版的知识,24.2%不熟悉索引站点。35.6%的受访者对引用指标不熟悉,38.8%不认识影响因子或CiteScore。值得注意的是,52.2%的参与者不熟悉开放获取期刊目录(DOAJ),大多数(57.1%)不熟悉比尔列表(Beall's List)。此外,19.1%的受访者缺乏对剽窃的认识,50.4%不熟悉预印本的概念。
在不同的人口统计学和学术变量中观察到研究素养水平的显著差异。在性别方面,未观察到研究素养水平的差异,56.0%的女性和47.3%的男性报告了较低的素养(χ2=3.754, p=0.053)。年轻学生(19-23岁)与年长组相比表现出较低的研究素养(χ2=6.594, p=0.037)。婚姻状况也起作用,已婚或单身个体比处于恋爱关系中的个体更可能报告较低的素养(χ2=8.134, p=0.017)。经济支持是另一个因素,与获得个人或混合支持的人相比,获得家庭支持的人中较低研究素养的比例更高(χ2=11.598, p=0.003)。
在不同机构完成学士和硕士学位的参与者中,52.4%的人研究素养较低,而在同一机构完成学位的参与者中这一比例较低(χ2=5.086, p=0.024)。没有经历过学业中断或延迟的参与者比那些经历过的人更有可能具有较低的研究素养(χ2=6.477, p=0.011)。校外研究培训对研究素养有积极影响。没有在校外接受培训的学生素养较低(59.2%),而接受过校外培训的学生中只有18.2%报告素养较低。对研究课程评价不满意与较低素养水平相关,无论是大学课程(χ2=24.457, p<0.001)还是校外课程(χ2=11.015, p=0.012)都是如此。
论文完成状态也很重要;非论文组成员的研宄素养显著低于论文组成员(χ2=25.076, p<0.001)。没有参与任何研究活动(无论文)的人比那些参与了研究工作(无论文)的人具有更高的低研究素养率(χ2=64.888, p<0.001)。类似地,未从事任何研究相关工作的受访者报告的研究素养水平低于那些从事相关工作的人(χ2=50.711, p<0.001)。然而,从事研究的动机与素养水平显著相关。较低素养在那些对研究职业不感兴趣的人中更常见(p=0.028)。特定的动机,如个人认可(χ2=5.590, p=0.018),与较高的研究素养相关。
逻辑回归分析结果显示,在调整后的模型中,确定了几个显著的关联。发现学士课程在2018-19年之后入学的学生比早先毕业的学生具有更高的低素养风险。此外,对学术要求所修的研究课程评价不满意的学生具有较低素养水平的可能性是高度满意者的11.979倍,而表示有些满意的学生具有较低素养的风险是高度满意者的2.46倍。此外,未参与大学校外研究课程或培训的学生具有显著更高的低素养风险(aOR=0.166, 95% CI=0.066-0.417, p<0.001)。最后,未从事研究相关职业的个体具有较低素养水平的可能性是其对应群体的近四倍。
基于GIS的可视化图示说明了不同地区研究素养水平的分布。虽然较低研究素养的分布总体上与行政区划没有显著关联(χ2=9.234, p=0.236),但拉杰沙希、迈门辛和锡尔赫特等某些行政区表现出较高的低素养率。类似地,当考虑学生状态(论文与非论文)时,未观察到显著差异(论文组:χ2=4.837, p=0.680;非论文组:χ2=6.024, p=0.537)。然而,值得注意的是,来自拉杰沙希行政区的论文学生表现出明显较高的低素养流行率,而对于非论文组,在拉杰沙希、迈门辛、巴里萨尔和锡尔赫特观察到了这种情况。
机器学习技术被用于预测研究素养水平。随机森林(Random Forest)和CatBoost模型都表现出强大的性能,准确率分别达到73.04%和71.57%,对数损失值较低,分别为0.57和0.56。值得注意的是,虽然随机森林表现出最高的精确度值73.29%,但CatBoost也达到了可观的71.69%。在F1分数方面,随机森林获得了最高的73.08%,CatBoost紧随其后,为71.60%。这些结果意义重大,因为低于2%的对数损失率被认为是出色的。CatBoost和随机森林模型都以最小的对数损失实现了最大的预测精度,全面优于其他方法。此外,在AUC值方面,CatBoost和随机森林都表现出卓越的判别能力,得分分别为0.79和0.78。特征选择分析表明,参加校外研究课程是最重要的预测因子,而家庭成员中有研究人员的影响最小。
本研究首次全面调查了大学生和毕业生的研究素养水平,并确定了与低研究素养相关的若干因素。同时结合了GIS和机器学习应用以提供更全面的发现。结果表明,超过一半的参与者缺乏足够的知识来识别与研究及学术出版相关的各个方面。对大学教育中研究课程的满意度、校外研究课程的参与度以及研究相关的职业参与是研究素养的重要决定因素。
特征选择分析通过机器学习进行,显示校外参加的研究课程对预测素养具有最显著的影响,而家庭成员中有研究人员的影响最小。此外,GIS分析发现,研究素养分布的区域差异不显著。虽然研究素养的某些模式与先前的研究一致,但我们的多维方法和先进分析技术的使用揭示了一些新的见解。最值得注意的是,校外研究培训的核心作用、区域因素的有限影响以及对现代出版工具和平台认知存在持续差距的识别,都为教育政策和实践提供了新的方向,无论是在孟加拉国还是在其他国家。
掠夺性期刊的扩散对学术诚信构成了重大威胁。在竞争激烈的"不发表就灭亡"环境中,早期职业研究人员和学生可能感到机构压力需要快速发表,这增加了他们对此类期刊的脆弱性——尤其是在研究素养或指导有限的情况下。与掠夺性出版商打交道可能导致时间和资源的浪费、声誉受损以及职业发展停滞。此外,通过掠夺性期刊传播不可靠或欺诈性发现会侵蚀公众对科学的信任,并可能扭曲健康和政策决策的证据基础。我们的发现与先前的研究一致,强调了装备学生和毕业生必要的知识和批判性技能以识别、避免和报告掠夺性出版实践的重要性。
本研究揭示了参与者中大多数表现出较差的研究素养水平。比较发现来自先前的研究显示出类似的趋势。例如,在奥地利皮肤科医生和学术护士研究人员中都观察到了素养的缺乏和无法识别掠夺性期刊的情况。直接的国际比较因测量和背景的差异而受到限制,但我们的结果与全球关于学生和早期职业研究人员研究素养不足的担忧相一致。
本研究发现女性参与者更可能对研究知识了解不足(56%对47.3%)。这种基于性别的研究素养差异可归因于每种性别可获得的不同研究机会。本研究还发现年长年龄组的研究素养水平较高。较年轻的学生在孟加拉国可能因学术经验较少、获得研究资源的机会有限、研究方法论培训不足或早期教育阶段缺乏指导而面临理解和进行研究的挑战。年长学生通常有更多的论文工作经验,本研究显示非论文组表现出比论文组更高的低素养可能性。随着年龄增长知识的逐步增加可能与学生在教育阶段进步过程中更多地参与研究有关。
研究结果表明,16.1%的所有参与者有家庭成员是研究人员,这些参与者表现出更高的研究素养。然而,家庭中研究人员的具体关系(例如,配偶、父母、兄弟、姐妹和其他亲属)在研究素养水平上没有显著差异。这表明,有家庭成员从事研究工作会影响个人对研究的兴趣,无论具体关系如何。来自有研究人员家庭的参与者可能因定期接触家庭内的学术和智力对话,以及更好地获得书籍、期刊和其他材料等教育资源而具有更高的研究素养,这营造了丰富的学习环境。
在学士课程期间参加过研究课程的参与者表现出显著高出1.6倍的研究素养几率。这表明,本科阶段研究方法的正规教育显著增强了学生的研究素养。类似地,那些在大学校外攻读研究课程的人表现出惊人的高出6倍的素养水平。参加此类课程为学生提供了结构化的课程、实践经验、资源获取、指导协作学习,所有这些共同增强了他们的研究素养。这进一步由以下发现证明:对研究课程不满意的参与者更可能报告较差的研究知识。这些发现强调了正规和校外研究教育在发展学生强大研究素养方面的关键作用。
参加论文组的参与者表现出显著高出2.47倍的研究素养几率(在未调整模型中)。论文组对象更可能因他们的正规教育要求而与研究相关联。此外,未参与研究职业的个体比那些参与的个体具有更高的低研究素养几率,突出了个人动机和职业参与对研究知识的影响。研究职业的参与提供了实践经验和定期接触以研究为中心的环境,包括获取研究工具、资源和指导。这种参与,加上持续的学习和研究知识在专业环境中的应用,加强和改善了对研究素养的理解。此外,与那些仍在进行研究的人相比,至少发表过一篇论文的参与者中更高的研究素养更为明显。因此,显然,具有研究经验和发表经验的参与者更可能拥有更高的研究素养,因为实际的研究参与增强了研究知识和意识。
区域绘图显示,孟加拉国境内各行政区之间较低研究素养的空间变异没有显著差异。然而,发现来自拉杰沙希、迈门辛和锡尔赫特行政区的个体更容易出现低素养水平。事后分析并未显示基于论文状态的贫困素养水平空间分布存在显著变异。尽管有论文状态,拉杰沙希、迈门辛、巴里萨尔和锡尔赫特等行政区具有低研究素养的个体比例较高。然而,重要的是要注意,本研究中使用的GIS应用是探索性的,代表了一种新颖的方法学贡献;缺乏统计学上显著的区域发现表明,应谨慎解释空间差异,可能反映了抽样局限性而非真实的人群差异。在这种情况下,GIS和空间分析最好被视为假设生成工具,而非验证性工具,为进一步研究指明了方向。此外,研究结果表明研究素养水平并不基于地区而显著差异,强调了在解决研究素养差异时需要超越行政区划界限给予特别关注。
在本研究中,机器学习技术被用于预测研究素养水平。随机森林和CatBoost模型都表现出强大的性能。特征选择分析表明,参与校外研究课程是最重要的预测因子,而家庭成员中有研究人员的影响最小。本研究的结果突出了CatBoost和随机森林模型在预测研究素养水平方面的有效性。机器学习方法的整合代表了传统分析方法的方法学进步,通过处理变量之间的复杂相互作用实现了稳健的预测和风险因素排序。这些方法为未来研究识别高风险群体和指导有针对性的教育或政策干预提供了有价值的工具,但在探索性环境中应谨慎解释其发现。
基于研究中发现的差距和预测因素,我们为大学、政策制定者和其他利益相关者提出了一系列有针对性的、基于证据的建议,以增强学生和毕业生的研究素养。我们的分析表明,正规的研究课程、积极的研究参与和指导都与更高的研究素养相关,而在诸如对掠夺性期刊、开放获取和研究伦理的认识等领域观察到了显著的缺陷。
本研究的优势包括其对大学生和毕业生研究素养的全面系统评估。据我们所知,这是孟加拉国的第一项研究,也是全球首批将研究素养作为一个多维构念进行测量的研究之一,涵盖了诸如同行评审、掠夺性出版、开放获取、索引、引用指标和研究伦理等关键领域。该研究在方法上具有创新性,结合了传统统计分析、用于空间绘图的GIS以及用于高级预测建模和特征选择的机器学习技术。使用具有出色内部一致性(Cronbach's alpha=0.939)的结构化、经过试点测试的问卷进一步增强了结果的可信度。这些方法共同使得能够识别细微的模式、有影响力的预测因素以及特定区域或亚组的差异,为教育者、机构和政策制定者提供了可行的见解。
尽管有这些优势,但应承认几个局限性。横断面设计限制了在预测因素与研究素养结果之间得出因果结论的能力。使用便利抽样和滚雪球抽样可能引入了抽样偏差,并限制了研究结果对孟加拉国更广泛学生和毕业生群体的普遍性。依赖自我报告数据可能增加回忆偏倚和社会期望效应的风险,而独家使用在线调查可能排除互联网接入有限或与研究团队联系最少的人。虽然研究素养量表表现出高可靠性,但未来的研究需要进行正式的结构效度验证和项目冗余检查。尽管GIS和机器学习提供了有价值的新视角,但鉴于样本和设计的局限性,应谨慎解释其结果。最后,由于调整后回归模型中变量的选择是探索性的,因此应谨慎解释结果。未来的研究可以通过采用纵向或实验性研究设计来解决这些局限性,这将允许对预测因素与研究素养结果之间的因果关系进行推断,以及更多样化的抽样策略和测量分析工具的持续改进。
总之,本研究对孟加拉国大学生和毕业生的研究素养及其预测因素进行了全面且多维度的评估。研究结果表明,相当大比例的参与者表现出较差的研究素养,突出了针对性干预的迫切需求。在关键领域,如对掠夺性期刊、研究伦理和开放获取出版的认识方面,发现了显著的缺陷,强调了协调行动的重要性。基于我们的发现,我们建议大学将强制性的研究素养模块和实践技能培训整合到本科和研究生课程中。扩大讲习班、研讨会、在线课程和正式指导计划的机会将进一步支持学生的研究发展。高等教育当局和大学管理者应制定国家指南和研究素养的最低标准,激励参与伦理研究实践,并促进所有学生群体跨所有学生群体包容、公平地获得培训和资源。此外,需要有针对性的意识宣传活动和可访问的数字资源,以解决持续的知识差距,特别是在预印本和开放科学等新兴领域。未来的研究应优先开发和完善稳健的研究素养评估工具,评估干预措施的有效性,并使用纵向和混合方法设计来监测随时间推移的进展。通过系统地将研究素养教育和支持嵌入学术和政策框架,孟加拉国及类似环境可以培养一个更伦理、更有能力、全球竞争力的研究文化,使毕业生能够驾驭并为不断发展的科学出版格局做出有意义的贡献。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号