基于LightGBM与SHAP算法的页岩储层类型智能识别与可解释性研究——以四川盆地深层页岩为例

《ACS Omega》:Identification and Interpretability Analysis of Shale Reservoir Types: Insights from LightGBM and SHAP Algorithms

【字体: 时间:2026年01月05日 来源:ACS Omega 4.3

编辑推荐:

  本文聚焦深层页岩储层类型识别难题,创新性地将LightGBM(Light Gradient Boosting Machine)机器学习算法与SHAP(SHapley Additive exPlanations)可解释性分析相结合。研究以四川盆地渝西地区上奥陶统五峰组(O3w)和下志留统龙马溪组一段一亚段(S1l11)为靶区,系统对比了基于回归与基于分类两种识别方案。结果表明,基于分类的方案在计算效率和预测性能上均显著优于传统回归方案,测试集加权精确率(WP)和加权召回率(WR)分别达到90.5%和90.4%。SHAP分析揭示了补偿密度(DEN)、伽马(GR)、补偿中子(CNL)等测井曲线对不同储层类型识别的关键非线性控制作用。该研究为深层页岩储层甜点评价提供了高效、准确且可解释的新方法。

  

1. 引言

随着四川盆地及周缘地区上奥陶统五峰组和下志留统龙马溪组页岩气的大规模商业开发,中国页岩气产量在2024年已达到257×108m3。页岩气的高效开发对于优化能源结构和保障能源安全具有重要的现实意义。实现页岩气高效勘探开发的关键在于优选甜点段,这需要对页岩储层进行分级评价。目前,页岩储层甜点评价主要有实验测试和基于测井曲线预测两种方法。前者需要测量多项参数,如总有机碳含量(TOC)、孔隙度、含气量和矿物组成等,过程耗时、成本高昂且受岩心取样限制,难以大规模应用。后者利用常规测井数据对储层参数进行连续预测,从而实现页岩储层的分级评价,这一能力引起了全球研究者的广泛兴趣。
然而,页岩储层成分复杂、非均质性强,深层储层还经历了强烈的成岩作用和构造改造,导致测井曲线与页岩储层类型之间存在显著的非线性相互依赖关系,使得常规方法的预测精度有限。例如,交会图分析在测井对比时仅限于同时考虑两个或三个属性,这阻碍了全测井信息的整合,导致关键数据的大量丢失。
近年来,随着硬件设备计算能力的指数级提升,机器学习算法迅速发展,在处理高维、大规模和非线性关系数据方面展现出强大能力,并逐渐应用于地质灾害、地质学、地球化学和石油地质学等多个地质领域,表现出优异的评价性能,特别是在石油地质领域的储层参数预测、裂缝预测、岩相识别、储层流体识别和测井曲线重构等方面。

2. 方法论

2.1. LightGBM算法

LightGBM是微软公司引入的一种高效梯度提升框架,因其处理大规模数据的速度和效率而在机器学习领域广受欢迎。与XGBoost算法一致,LightGBM也采用加法模型。其目标函数由损失函数和正则化项两部分组成。通过采用基于直方图的算法、基于梯度的单边采样和互斥特征捆绑等技术,LightGBM加速了计算并减少了内存使用,使其在处理大规模数据集方面具有卓越的能力。该算法可应用于回归和分类两种任务。

2.2. 贝叶斯优化

贝叶斯优化是一种用于黑盒函数的高效全局优化框架,它通过构建给定有限采样点情况下黑盒函数输出的后验概率分布来搜索最优参数。其主要工作流程是首先通过随机或拉丁超立方采样方法获得目标函数的多个观测值;然后,基于上述有限观测值和概率代理模型(如高斯过程和随机森林)建立目标函数的预测;接着,通过采集函数(如期望改进和改进概率)选择一个新的采样点(即下一个最佳猜测),同时考虑先前观测到的最优值和全局未探索区域;在获得新的观测值后,依次更新预测和采集函数,再次确定下一个采样点;最后,重复上述过程直至达到停止条件。与网格搜索和随机搜索方法相比,贝叶斯优化算法的核心优势在于其能够以尽可能少的时间和计算成本逼近复杂目标函数的最优解,从而大大提高超参数的优化效率。

2.3. SHAP算法

SHAP是一个基于合作博弈论和沙普利值的统一框架,用于解释机器学习模型的输出。SHAP算法的核心思想是将模型输出视为合作博弈,每个特征是一个参与者,通过计算所有特征子集的边际贡献来公平分配每个特征的贡献。SHAP值同时满足局部准确性和全局一致性,确保了解释的可靠性和稳定性。由于其能够提供一致且直观的解释,SHAP算法已被广泛用于复杂模型的特征重要性分析,增强了对这些模型的信任。

3. 数据准备

3.1. 地质背景

研究区位于重庆市西部,地跨四川盆地两个二级构造单元:中央平缓构造带和南部低陡构造带。该区域经历了复杂的多期构造叠加和改造,主要受燕山期雪峰造山运动的西北向逆冲推覆和喜马拉雅期后续隆升剥蚀过程的塑造,形成了以北东-南西向背斜-向斜对为特征的构造格局。主要目标层段为上奥陶统五峰组和下志留统龙马溪组一段一亚段,后者可进一步划分为四个小层。这些层段是该区域海相页岩气勘探开发的主要储层,岩性以黑色至深灰色硅质和碳质页岩为主。

3.2. 数据探索

本研究的数据集来源于目标区的十口页岩气评价井。采集了五条测井曲线:伽马(GR)、声波时差(AC)、补偿密度(DEN)、补偿中子(CNL)和电阻率(RT)。同时收集了571组实验数据,包括四个储层质量参数:TOC含量、孔隙度、含气量和脆性指数。考虑到RT值的动态范围较宽,对其进行了对数变换以标准化数据分布,在后继分析和机器学习应用中用lgRT代替原始RT。
基于深层页岩气勘探中建立的分级标准和经验权重,采用多参数综合方法将页岩储层划分为三类,即I类、II类和III类。其中,I类代表优质储层(即甜点段),II类对应于中等质量层段,III类表示劣质储层。

3.3. 评价指标

对于回归任务,模型性能通过均方根误差(RMSE)和决定系数(R2)两个互补指标进行量化。对于分类任务,在类别不平衡条件下,采用精确率(P)、召回率(R)、加权精确率(WP)和加权召回率(WR)四个指标来评估模型性能。

4. 结果与讨论

4.1. 超参数调优

为了优化LightGBM算法的预测精度和泛化能力,系统调整了控制树结构和训练动态的关键超参数。主要优化的参数包括n_estimators(提升迭代次数)、max_depth(最大树深度)、learning_rate(学习率)、num_leaves(最大叶子节点数)和min_child_samples(叶节点最小样本数)。本研究使用Scikit-learn库中的LightGBM算法,并通过Optuna框架使用贝叶斯优化进行超参数优化。

4.2. 模型性能

采用了两种不同的方法进行页岩储层类型识别:基于回归的方案和基于分类的方案。基于回归的框架涉及一个两阶段过程,而基于分类的方法则采用直接标记策略。
方案一:基于回归的方案
建立了四个回归模型来预测TOC含量、孔隙度、含气量和脆性指数。模型表现出稳健的预测性能,测试集上加权精确率(WP)和加权召回率(WR)分别为85.9%和86.1%。但I类储层的识别召回率较低。
方案二:基于分类的方案
使用从贝叶斯优化获得的最优超参数开发了一个直接分类模型。该方案在测试集上同样表现出优异的泛化能力,I、II、III类储层的识别加权精确率(WP)和加权召回率(WR)分别达到90.5%和90.4%,优于基于回归的方案。
基于分类的方案在所有评估指标上均优于基于回归的方案,特别是在I类储层识别方面。这主要是因为基于回归的方案中四个储层参数的回归预测误差会产生级联累积效应。此外,基于回归的方案需要预先构建四个独立的回归模型,而基于分类的方案仅需一个模型即可实现页岩储层类型识别,在模型复杂性和计算效率方面具有显著优势。因此,采用基于分类的方案进行最终的储层类型识别。

4.3. 测井曲线的重要性

SHAP值阐明了在通过Softmax函数进行概率转换之前的原始模型输出(logits)。正SHAP值表示特征i促使模型将单个样本预测为类别k,而负值则暗示抑制作用。零SHAP值表示对类别k预测的贡献为中性。
I类储层识别
五条测井曲线的重要性排序为:DEN > GR > CNL > lgRT > AC。在最重要的三条曲线中,较低的DEN和CNL值,以及较高的GR值,通常驱动模型将样本识别为I类储层。DEN、GR、CNL与SHAP值之间表现出复杂的非线性关系。
II类储层识别
特征重要性排序变为:DEN > AC > GR > lgRT > CNL。与I类和III类储层识别相比,AC的重要性显著增加,而CNL成为最不重要的特征。DEN、AC、GR与SHAP值之间呈现出倒V形等复杂关系,反映了II类储层作为过渡类型的识别复杂性。
III类储层识别
特征重要性层次与I类储层识别一致,为DEN > GR > CNL > lgRT > AC。在最重要的三条测井曲线中,模型表现出系统性的偏好模式:较高的DEN和CNL值,以及较低的GR测量值,与III类识别倾向性增加相关。
地质机制
DEN本质上反映了页岩储层中有机质丰度和孔隙度这两个关键地质属性的集体响应,这奠定了其对于储层类型识别的关键重要性。GR值反映了岩石中放射性元素的富集水平,这些元素主要由页岩中的有机质和粘土矿物携带,因此GR值与有机质丰度呈正相关关系,这解释了GR在识别I类和III类储层中的重要性。

4.4. 地质应用

将基于分类的储层类型识别模型部署到目标区的十口页岩气井中,通过连续分级实现了页岩储层质量的纵向地层评价。定量统计分析揭示了储层类型分布的明显地层变化。I类储层(甜点目标)主要富集在S1l11-1和上奥陶统五峰组,分别占49.9%和27.7%,是水平井钻井的最佳层段。

4.5. 挑战

尽管机器学习方法在页岩储层评价中具有重要价值,但仍需系统解决三个关键挑战:(1)数据稀缺限制;(2)地质背景整合不足;(3)模型可解释性。未来的应用正从纯粹的数据驱动方法转向结合物理约束的集成方法,并朝着多尺度数据融合的方向发展。

5. 结论

(1)在渝西地区深层O3w和S1l11页岩中识别出三类储层。
(2)基于LightGBM算法的分类方案只需构建单一分类模型即可实现深层页岩储层类型识别,在模型复杂性和计算效率上显著优于回归方案,且避免了误差累积效应,提高了识别精度和泛化能力。
(3)在I类和III类储层识别中,测井曲线重要性排序一致为DEN > GR > CNL > lgRT > AC,而II类储层顺序变为DEN > AC > GR > lgRT > CNL,且影响呈复杂非线性特征。
(4)储层识别结果表明,I类储层主要分布在上奥陶统五峰组和S1l11-1,垂向上页岩储层质量在O3w显示向上逐渐变好,而在S1l11显示向上逐渐变差。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号