
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用文本挖掘技术开发一种预测分类模型,用于确定致命矿井事故的类别
《International Journal of Occupational Safety and Ergonomics》:Development of a predictive classification model for determining the category of fatal mine accidents using text mining techniques
【字体: 大 中 小 】 时间:2025年11月04日 来源:International Journal of Occupational Safety and Ergonomics 1.6
编辑推荐:
本研究针对矿山高事故率及人工分类效率低下的问题,提出基于文本挖掘的八类事故自动分类方法。采用分层10折交叉验证,比较逻辑回归、SVM、随机森林等六种模型,MLP以0.84加权F1值最优,显著降低误分类率,为安全管理提供可靠工具。
目标:采矿行业属于高风险工作环境,事故率较高,导致人员伤亡和经济损失。审查事故报告对于预防类似事件至关重要;然而,对大量事故数据进行手动分类既费时又费力。方法:本研究提出了一种利用文本挖掘技术对致命事故报告进行分类的新方法。该方法通过自然语言处理技术将文本数据转换为向量表示形式,并采用分层10折交叉验证来确保训练集和测试集与原始数据集具有相同的类别分布,从而提高模型性能。研究使用了六种监督式机器学习模型(逻辑回归、支持向量机(SVM)、随机森林、朴素贝叶斯、决策树和多层感知器(MLP))对1308份致命事故记录进行分类,将其分为八种类型。结果:分析表明这些模型的分类精度较高。其中,多层感知器(MLP)模型的整体表现最佳,加权平均F1分数为0.84,其次是逻辑回归(0.83)、支持向量机(SVM,0.81)、随机森林(0.73)、朴素贝叶斯(0.65)和决策树(0.57)。结论:本研究开发了一种能够自动从事故报告中识别事故类型的系统。所提出的方法减少了误分类现象,降低了人为偏见在事故报告分析中的影响,为采矿安全管理提供了可靠的工具。