《Engineering Applications of Artificial Intelligence》:Theory-guided data-driven based on the learning curve for fracturing performance prediction
编辑推荐:
本研究基于吉木萨尔页岩油压裂特征提出压裂学习曲线,构建理论指导数据驱动(TgDD)模型预测压裂性能。通过CNN-GRU预测趋势部分,AdaBoost-RF预测局部波动,TgDD模型预测精度较直接预测提升47.6%。工程参数优化使新井EUR提高0.0069。
王云金|郑蕾怡|陈工|张建龙|白浩|宋汉轩|江婷雪|周福建
中国石油大学(北京)石油资源与工程国家重点实验室,北京,102249,中国
摘要
准确且稳健的压裂性能预测对于优化压裂策略至关重要。本文提出了一种基于Gimsar页岩油压裂特性的压裂学习曲线,并利用该曲线作为理论指导,构建了一个理论驱动的数据驱动(TgDD)模型来预测压裂性能。该压裂学习曲线进一步被分解为无量纲趋势和局部波动。通过结合卷积神经网络(CNN)和门控循环单元(GRU)构建了CNN-GRU模型来预测无量纲趋势;同时使用自适应提升(AdaBoost)集成随机森林(RF)模型来预测局部波动。结果表明,无量纲趋势具有时间序列特征。CNN-GRU模型能够提取和选择关键特征,其预测能力比单独使用CNN或GRU高出28.1%和12.9%;AdaBoost-RF模型能够动态调整权重,其预测能力比RF模型高出约37%。TgDD模型对工程参数更为敏感,与直接预测方法相比,其预测精度提高了47.6%。TgDD预测精度较高的主要原因有两个:一是无量纲趋势属于时间序列数据,而CNN-GRU模型在处理此类数据时具有很强的预测能力;二是局部波动的幅度减小,从而提高了数据质量。利用TgDD模型优化了新压裂井的工程参数,其估计的最终采收率从0.4847提升至0.4917。
引言
水力压裂是页岩油、天然气和地热能开发中的关键技术,因为它可以破坏储层并形成人工裂缝,从而连接岩层(张波等,2023)。如何优化压裂策略以最大化资源开发一直是科学研究和刺激技术的研究目标(王等,2024a;王等,2024b)。准确且稳定的压裂性能预测对于优化压裂策略至关重要。
早期,人们使用数值模拟方法来预测压裂性能,但由于缺乏准确识别和描述地下裂缝网络的成熟技术而受到限制(王等,2022)。结合统计数据分析、数据聚类与分类以及机器学习算法的智能预测方法为压裂性能预测提供了有前景的替代方案(陈和张,2021);Al-Alwani等人(2019)基于2700口Marcellus页岩气井的数据开发了三个多元线性回归模型来预测产量。然而,由于地质和工程参数与产量之间存在复杂的非线性关系,这些算法难以有效处理这一问题(马等,2023)。随着神经网络(NN)的不断发展,三层自组织映射网络模型、前馈神经网络、模糊神经网络和深度神经网络相继被用于预测产量(罗等,2018;Oberwinkler等,2004;Shelley等,2021),但由于压裂性能预测涉及众多特征变量,简单的网络结构常常导致训练过程中特征丢失(马等,2023)。为了增强对油气产量等序列数据的捕捉能力,还使用了长短期记忆神经网络(LSTM,一种循环神经网络的变体)来预测产量(张等,2023)。这些方法完全基于数据驱动,但稳定性较差且可解释性不强。近年来,决策树(DT)、随机森林(RF)、自适应提升(AdaBoost)和支持向量机(SVM)等算法逐渐被用于压裂性能预测(Lolon等,2016;Schuetter等,2015;Tan等,2017)。然而,方法选择不当可能导致训练过程缓慢、预测精度低和过拟合(郭等,2023)。SVM在数据集较小且异常值较少的情况下表现较好,但不适合多源数据集(如压裂刺激数据集,邢等,2025)。RF需要更多的数据集,但能够构建出稳健的模型,有助于压裂性能预测(王等,2023)。神经网络需要大量数据才能有效工作,且构建过程繁琐耗时(王和陈,2019)。自回归积分滑动平均模型(ARIMA)、LSTM和门控循环单元(GRU)完全基于数据驱动,但无法反映特征变量与目标变量之间的映射关系(郭等,2023)。此外,由于收集地质属性(渗透率、孔隙度、压力和初始饱和度)的难度,以往的研究要么忽略了地质特征,要么假设研究区域内的地质条件是均匀的(Awoleke和Lane,2011;Lafollette等,无日期)。一些研究人员还使用位置信息(如坐标)来表示井之间的地质差异,当与井轨迹与优质储层的接触程度结合使用时,取得了良好的预测效果(Schuetter等,2015)。
随着对机器学习算法理解的加深,将理论知识与机器学习算法相结合也是提高预测精度的一种有效方法。一些研究人员结合使用有限元和边界元模拟器以及水库数值模拟软件,通过机器学习算法建立刺激参数与压裂性能之间的映射关系(李等,2023a;李等,2023b;李等,2023c;王等,2024a;王等,2024b)。然而,裂缝形态的提取、分配和网格转换仍然是一个难题。Zoveidavianpoor和Gharibi(2016)基于专家经验确定了权重,并使用高斯隶属函数对候选井进行了综合评估。领域知识也常用于特征工程以解决预测问题。Rahman和Bhatnagar(1988)提出了一个专家系统,其预测效果优于基于简单回归的算法。Alipour等人(2020)提出了一个方差网络,并应用小波变换进行特征选择以预测净负荷。此外,一些研究人员开发了理论指导的框架。Karpatne等人(2017)提出了理论驱动的数据科学(TGDS)。在他们的工作中,提出了五种整合科学知识和数据科学的方法。Raissi等人(2019)提出了另一种称为物理信息神经网络(PINN)的方法,其中将非线性偏微分方程作为损失函数中的约束项。Wang等人(2020)提出了基于TGDS和理论驱动神经网络(TgNN)的物理引导神经网络(PGNN),利用地下渗流的控制方程作为领域知识来指导神经网络的预测。这些方法本质上反映了从领域知识中形成的先验信息,旨在表征对数据的预先理解。总体而言,结合理论和专业知识可以为机器学习算法提供活力,从而实现更准确、更有针对性的压裂性能预测。
本研究对Jimsar地区的页岩油数据进行了全面的数据挖掘,并基于压裂特性提出了压裂学习曲线。基于该学习曲线构建了一个理论驱动的数据驱动(TgDD)模型。进一步构建了CNN-GRU和AdaBoost-RF模型分别用于预测学习曲线中的无量纲趋势和局部波动。对比分析了TgDD模型的预测能力,并优化了新压裂井的工程参数。
数据准备与预处理
2020年,国家能源局和自然资源部批准建立了“新疆Jimsar国家大陆页岩油示范区”。2023年,Jimsar地区的页岩油产量达到63.5×104吨/年(李等,2023a;李等,2023b;李等,2023c)。本研究使用的数据来自Jimsar P3l层中的压裂水平井。如图1所示,Jimsar P3l是准噶尔盆地的主要页岩油生产层。
理论驱动的数据驱动模型
本研究采用基于学习曲线的TgDD模型来预测压裂性能。模型的输入数据包括每口井的EUR、地质参数和工程参数。通过过滤,将建立的学习曲线分解为无量纲趋势和局部波动。然后分别使用CNN-GRU和AdaBoost-RF模型预测无量纲趋势和局部波动,最终预测EUR。TgDD模型的结构如图5所示。
基于CNN-GRU的无量纲趋势预测
EUR学习曲线样本数量较少且波动较大,本研究重点关注压裂技术的迭代升级过程和熟练程度。根据压裂学习曲线的重要性,选择移动平均滤波方法处理EUR学习曲线以获得无量纲趋势。同时,利用建立的CNN-GRU模型学习和预测过滤后的无量纲趋势。
结论
本研究对Jimsar地区页岩油的地质和工程特性进行了统计分析,并基于压裂特性提出了压裂学习曲线。在过滤和分解学习曲线后,建立了用于预测压裂性能的TgDD模型。根据学习曲线中的无量纲趋势和局部波动特征,TgDD模型利用时间序列方法进行了预测。
作者贡献声明
王云金:撰写——原始草案、软件开发、方法论设计。
郑蕾怡:正式分析、数据整理。
陈工:验证工作。
张建龙:方法论设计。
白浩:资源获取、数据整理。
宋汉轩:软件开发。
江婷雪:监督指导、资金申请。
利益冲突声明
作者声明以下可能的财务利益或个人关系可能构成潜在的利益冲突:周福建报告称获得了国家自然科学基金的支持。如果还有其他作者,他们声明没有已知的财务利益或个人关系可能影响本文的研究结果。
致谢
本工作得到了国家自然科学基金(项目编号:52174045和U23B2084)的支持。