
-
生物通官微
陪你抓住生命科技
跳动的脉搏
MUSeg数据集:突破地下矿山智能感知瓶颈的多模态语义分割基准
【字体: 大 中 小 】 时间:2025年07月09日 来源:Scientific Data 5.8
编辑推荐:
针对地下矿山视觉感知受严苛环境(光照不均、空间狭窄)限制的难题,中国矿业大学(北京)团队开发了首个多模态语义分割数据集MUSeg,包含3,171组对齐的RGB-D图像及15类专家标注语义对象。该数据集覆盖中国六省典型矿山场景,经CMX、DFormer等模型验证,多模态融合显著提升语义分割精度(mIoU达61.83%),填补领域空白,为智能采矿的环境感知与自主导航提供关键支撑。
地下矿山深处数百米甚至千米的黑暗环境中,矿工们面临着复杂巷道结构、剧烈光照变化和粉尘干扰的严峻挑战。据统计,中国87%的煤炭和89%的有色金属依赖地下开采,但灾害风险高、事故救援难等问题严重威胁人员安全。实现矿山无人化与智能化已成为行业迫切需求,而环境感知技术是其中的核心瓶颈——传统可见光视觉在低照度、弱纹理的矿井中表现疲软,语义分割精度骤降。更遗憾的是,尽管多模态融合(如RGB-D融合)在自动驾驶等领域成效显著,矿山场景却因缺乏专用数据集导致模型"水土不服":直接将Cityscapes数据集训练的CMX模型迁移至矿山数据时,出现大面积误检漏检(见图2)。

为攻克这一难题,中国矿业大学(北京)人工智能学院联合能源与矿业工程学院的研究人员,联合构建了全球首个面向复杂地下矿山的多模态语义分割数据集MUSeg。团队基于矿井类型、生产规模、地质条件等八维指标筛选中国六省典型矿山(见表2),利用微软Azure Kinect DK传感器同步采集3,171组空间对齐的RGB-D图像(分辨率1082×932),涵盖竖井、巷道、工作面、硐室四大场景(见表3)。深度信息的照明无关性与高精度测距特性(见表1传感器参数)有效弥补了可见光的缺陷。在标注阶段,创新采用"多模态互补标注策略":正常光照用RGB图像标注,低光照场景则依赖深度图像标注,结合ISAT-SAM工具和专家交叉校验,最终完成涵盖人员、电缆、支护设备等15类关键对象的像素级标注(图4)。

研究通过四阶段流程保障数据质量:

数据特征分析:
技术验证:
在1,595组训练集、1,576组测试集上对比8类模型(表5):

MUSeg作为首个面向地下矿山的多模态语义分割数据集,通过系统性构建流程与严格质量管控,填补了该领域数据空白。其价值凸显于三方面:
数据集已开源(Figshare DOI: 10.6084/m9.figshare.28749098),相关代码涵盖数据预处理与模型验证模块。此项发表于《Scientific Data》的工作,标志着矿山智能化感知研究迈入多模态时代,为破解"无人矿山"感知难题奠定基石。
生物通微信公众号
知名企业招聘