编辑推荐:
为解决煤炭智能分选数据难题,研究人员开发 DsCGF 数据集,有效支持相关研究,推动智能矿山建设。
在 “双碳” 战略目标的大背景下,能源转型成为中国能源发展的核心主题。煤炭作为我国能源结构的重要组成部分,其智能化分选和分析至关重要。然而,目前煤炭智能分选面临着诸多挑战。一方面,随着煤炭开采机械化程度的提高,大量的顶岩、底岩和生产废料混入原煤中,使得煤矸石和异物的含量大幅增加。在传统的煤炭预处理过程中,常常需要人工分选来去除这些杂质,但这不仅效率低下,还容易导致设备故障。另一方面,深度学习在煤炭智能分选中的应用虽然逐渐广泛,但由于缺乏准确且大规模的数据,其发展受到了严重的制约。
为了解决这些问题,中国矿业大学(北京)的研究人员开展了一项重要的研究。他们经过多年的努力,开发了行业内首个用于煤炭智能分选的大规模开源图像数据集 ——DsCGF(Dataset for Coal, Gangue, and Foreign objects)。该研究成果发表在《Scientific Data》上,为煤炭智能分选领域带来了新的突破。
在研究方法上,研究人员从中国三个典型矿区(安徽、内蒙古和山西)的选煤厂中,选取了具有代表性的选煤厂进行数据采集。在生产过程中,利用安装在手动分选传送带上的图像采集设备,持续收集原煤图像。这些图像采集设备配备了特定的照明系统和不同型号的工业相机,以确保采集到的图像质量稳定。采集到的图像经过专业人员的手动标注,标注涵盖了目标检测、图像分类和实例分割等多个层面,最终形成了包含近 270,000 张可见光图像的数据集。
研究结果主要包括以下几个方面:
- 数据记录:DsCGF 数据集包含了来自三个典型矿区的原煤图像,涵盖了不同的生产场景和煤种。数据集不仅包含了图像,还包含了详细的手动标注信息,能够满足图像分类、目标检测和实例分割等多种任务的需求。数据被划分为训练集、验证集和测试集,比例为 6:2:2,且不同区域的数据类别比例相对一致12。
- 技术验证:研究人员使用了多种先进模型对 DsCGF 数据集进行评估。在图像分类任务中,选用 SwinVIT 进行训练和评估,在四个场景下分别取得了 0.906、0.995、0.982 和 0.794 的 Micro F1 分数;在目标检测任务中,采用 YOLOv8,获得了不同场景下的 mAP 分数,如 34.36%、25.68%、81.05% 和 57.84%;在实例分割任务中,运用 Mask - RCNN 进行处理,结果表明该模型在分割大量目标方面具有一定能力,但性能指标仍有提升空间34。
研究结论和讨论部分指出,DsCGF 数据集的发布具有重要意义。它为煤炭智能分选和分析提供了丰富的数据支持,有助于推动深度学习在该领域的进一步应用。通过使用该数据集,研究人员可以更深入地研究煤炭和煤矸石的识别算法,提高识别精度。此外,该数据集还为研究不同地区原煤的性质提供了宝贵的资源,有望促进跨区域智能分选技术的发展。同时,研究人员也指出了数据集存在的一些局限性,如部分数据存在类别不平衡、部分图像采集条件与实际生产存在差异等问题,但这些问题也为后续研究提供了方向。
总之,DsCGF 数据集的出现,为煤炭智能分选领域带来了新的希望和机遇。它将有助于推动我国智能矿山的建设,提高煤炭行业的效率、清洁性和智能化水平,在 “双碳” 目标的实现过程中发挥重要作用。