
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于语义文本表征与降维的采矿行业事故分析:一种集成聚类框架的创新研究
【字体: 大 中 小 】 时间:2025年09月04日 来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
这篇研究通过整合基于Transformer的自然语言处理(NLP)、非线性降维(UMAP)和无监督机器学习(k-means),构建了AI驱动的采矿事故分析框架。利用Sentence-BERT(SBERT)提取事故叙述的高维语义特征,结合聚类分析揭示了地下采矿(84-98%无设备事故)、露天作业(98-99%车辆相关)等差异化事故模式,为靶向安全干预提供了数据支持。
当前事故数据分析的挑战
当代事故数据分析面临多维度挑战:结构化元数据(如事故类型)与非结构化叙述的割裂,传统方法(如词袋模型/TF-IDF)难以捕捉语义关联,而高维嵌入(如SBERT)又需降维处理。研究指出,简单线性回归(SLRM)等统计方法无法应对采矿事故数据的复杂性,亟需能融合多源数据的综合分析框架。
方法论
本研究采用多阶段分析流程:1)从MSHA数据库提取事故叙述文本;2)通过SBERT生成语义嵌入;3)UMAP降维至3维空间;4)k-means聚类结合树状图细分。关键创新在于将设备类型等结构化变量与文本语义协同分析,实现事故模式的立体解构。
结果
分析247,873起事故数据发现:仅用叙述文本时聚类区分度低(6簇中1簇占主导),而融合"SUBUNIT"等变量后形成12个特征簇。地下采矿簇显示:67%躯干伤(过度用力)、58%下肢伤(滑倒)、95%上肢伤(物料搬运)。露天作业簇中车辆事故占比高达98-99%,且多发复合伤。
讨论
通过树状图细分聚类发现:钻具(92%)、装载机(98%)等设备关联簇具有高度特异性,而噪声性听力损失(96-97%)跨所有作业类型。研究证实语义增强能识别传统统计方法遗漏的模式,如无设备事故中不同伤情的动作诱因差异。
结论
该框架通过SBERT-UMAP-k-means技术链,首次实现采矿事故叙述的语义级聚类分析,为动态风险监测系统的开发奠定基础。未来可扩展至实时文本流分析,推动安全生产从被动响应转向主动预警。
生物通微信公众号
知名企业招聘