岩石SEM图像微结构解析基准数据集cigRockSEM:深度学习方法在孔隙自动识别中的突破
《Scientific Data》:A benchmark dataset and baseline methods for rock microstructure interpretation in SEM images
【字体:
大
中
小
】
时间:2025年10月23日
来源:Scientific Data 6.9
编辑推荐:
本刊推荐:针对岩石扫描电镜(SEM)图像缺乏标注数据制约深度学习(DL)应用的瓶颈,研究人员开展了"岩石微结构解释基准数据集与基线方法"研究。通过集成泥岩、砂岩和页岩三种岩性样本,应用放大倍数标准化、中值滤波和对比度受限自适应直方图均衡化(CLAHE)等预处理技术,构建了高质量标准化数据集cigRockSEM。研究结果表明,U-Net和DeepLabv3+等DL模型在孔隙分割任务中显著优于传统方法(如Otsu算法、分水岭算法等),为油气储层精确分析提供了重要技术支撑。
在石油勘探领域,岩石孔隙结构的精确分析直接关系到油气储集能力的评估和开采方案的优化。传统测井技术虽然能够提供宏观尺度的孔隙度估计,但难以捕捉微观尺度的孔隙形态、尺寸和空间分布特征。而光学显微镜等常规方法受限于分辨率,无法有效识别微米级或纳米级的孔隙细节。扫描电镜(SEM)技术的出现为解决这一难题提供了新途径,其高分辨率成像能力使得岩石微观结构的精细观测成为可能。
然而,SEM图像的解释长期依赖人工判读,这一过程不仅主观性强、效率低下,而且难以应对大规模复杂图像的分析需求。尽管图像分割算法在地学领域已有广泛应用,但传统方法(如基于灰度统计特征的阈值分割或基于梯度信息的边界识别)往往需要手动参数调整,对具有宽孔径分布、强对比度异质性和复杂孔隙几何形态的SEM图像适应性较差。深度学习技术的兴起为自动化分析带来了希望,但其性能高度依赖于标注数据的质量和多样性。现有公开SEM数据集普遍存在岩性覆盖单一、标注不完整等问题,严重制约了该技术在地学领域的深入应用。
针对这一技术瓶颈,中国科学技术大学张耀、吴新明与成都理工大学游家春合作在《Scientific Data》发表了题为"A benchmark dataset and baseline methods for rock microstructure interpretation in SEM images"的研究论文。研究人员通过系统整合多源数据,构建了首个涵盖泥岩、砂岩和页岩三种关键岩性的标准化SEM图像数据集cigRockSEM,并建立了完整的深度学习基准评估体系。
关键技术方法方面,研究团队从国际海洋发现计划(IODP)和数字岩石门户等公开平台获取原始数据,通过放大倍数标准化处理实现图像尺度统一,采用中值滤波消除噪声干扰,并利用对比度受限自适应直方图均衡化(CLAHE)增强图像对比度。所有图像最终裁剪为512×512像素标准尺寸,构建包含14,954张图像的高质量数据集。在模型评估环节,同时考察了Otsu算法、自适应均值阈值、分水岭算法和K-means聚类四种传统方法,以及U-Net和DeepLabv3+两种深度学习架构的性能表现。
研究团队严格遵循沉积学分类标准,将样本分为砂岩、页岩和泥岩三大岩性。其中泥岩样本来自日本南海海槽库马诺盆地的未固结泥浆,包含49张SEM图像;砂岩样本取自北海吉列姆A油田和先锋油田,通过LabelMe工具进行人工孔隙标注;页岩样本为首次公开的新数据,来自中国山东东北部6口钻井,涵盖1,119张图像和109个放大级别。所有样本均经过氩离子抛光等标准化制备流程,确保数据质量一致性。
针对原始数据存在的放大倍数差异大、图像质量不均等问题,研究团队设计了系统的预处理流程:将15,000倍泥岩图像上采样至40,000倍,页岩图像统一归并至7个主要放大级别(1,000x-120,000x)。随后采用中值滤波消除盐椒噪声,通过CLAHE算法增强局部对比度。最终生成的cigRockSEM数据集包含2,477张泥岩图像、1,152张砂岩图像和11,325张页岩图像,所有图像均配有像素级孔隙标注标签。
在泥岩样本中,分水岭算法获得最高准确率(0.8189)和F1分数(0.8706),但存在明显过分割现象;砂岩样本上各传统方法表现相对较好,其中分水岭算法准确率达0.9346;而在结构最复杂的页岩样本中,传统方法性能显著下降,最佳mIoU(平均交并比)仅0.6320。结果表明传统算法对复杂微观结构的适应性有限。
深度学习模型展现出显著优势:在砂岩样本中,U-Net和DeepLabv3+的mIoU分别达到0.9272和0.9573;泥岩样本中DeepLabv3+的mIoU(0.8583)比最佳传统方法提高8个百分点;页岩样本中DeepLabv3+保持0.7639的mIoU,而U-Net的F1分数接近0.97。可视化结果清晰显示,深度学习模型能够准确识别复杂孔隙边界,显著减少误分割和漏分割现象。
该研究通过构建高质量多岩性SEM图像数据集和系统性的性能评估,证实了深度学习技术在岩石微结构解析中的巨大潜力。cigRockSEM数据集不仅解决了该领域标注数据匮乏的瓶颈问题,其标准化预处理流程和基准评估框架更为后续研究方法创新提供了重要参照。值得注意的是,当前数据集仅包含二元孔隙标注,未来可扩展至矿物相识别、岩性纹理分析等更广泛的地质语义任务。这项工作的核心价值在于建立了连接地质学与人工智能的桥梁,为油气储层精细表征、非常规资源评估等工业应用提供了可靠的技术基础,同时为数字岩石物理这一交叉学科的深入发展奠定了数据基石。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号