《ACS Omega》:Predicting Surfactant Oil–Water Interfacial Tension Using Gated Message-Passing Graph Neural Networks
编辑推荐:
利用表面活性剂调控油水体系的界面张力(Interfacial Tension, IFT)是强化采油(Enhanced Oil Recovery, EOR)的关键策略。然而,基于分子结构预测表面活性剂的物理性质仍具挑战性,传统机器学习方法难以捕捉分子结构与环境参
利用表面活性剂调控油水体系的界面张力(Interfacial Tension, IFT)是强化采油(Enhanced Oil Recovery, EOR)的关键策略。然而,基于分子结构预测表面活性剂的物理性质仍具挑战性,传统机器学习方法难以捕捉分子结构与环境参数之间的耦合相互作用,而现有图神经网络主要聚焦于单分子表征,忽视了系统环境特征。针对上述问题,研究人员提出了一种带注意力机制的门控消息传递图神经网络(Gated Message-passing Graph Neural Network with an Attention Mechanism, Gated-MPNN-AT),旨在整合分子图结构与环境特征,实现表面活性剂-油-水体系界面张力的准确预测。该模型通过双门控机制动态控制消息传递过程,采用交叉注意力(Cross-Attention)机制实现分子拓扑特征与环境参数的深入交互,并设计了混合鲁棒损失函数以处理跨数量级分布的IFT数据。研究结果表明,该模型的预测精度优于传统机器学习方法(如随机森林(Random Forest, RF)和极致梯度提升(eXtreme Gradient Boosting, XGBoost))及部分图神经网络方法(如图卷积网络(Graph Convolutional Network, GCN)和图注意力网络(Graph Attention Network, GAT))。消融实验证实,门控机制使决定系数(Coefficient of Determination, R2)提升4.8%,交叉注意力融合策略使平均绝对误差(Mean Absolute Error, MAE)降低21.3%。同时,该模型具有良好的泛化能力及对异常IFT数据的强抗干扰能力。
强化采油(Enhanced Oil Recovery, EOR)技术作为提高枯竭油藏采收率的关键途径,核心在于有效调控原油-水体系的界面张力(Interfacial Tension, IFT),从而降低毛细管压力并优化流体驱替过程。在EOR策略中,含表面活性剂的注入水因能显著降低油水IFT并改善储层润湿性而备受关注,但其效果高度依赖于表面活性剂的分子结构、浓度及环境参数。准确预测含表面活性剂体系的IFT值面临严峻挑战:传统实验方法虽是测量IFT的标准,但成本高昂、耗时冗长,尤其难以在高温高压储层条件下大规模应用;现有机器模型虽在IFT预测方面取得进展,但大多聚焦于简化组分体系,基于输入参数的传统回归模型难以捕捉分子层面相互作用的非线性关系。图神经网络(Graph Neural Network, GNN)因其处理图结构数据的卓越能力为该问题提供了新思路,可通过消息传递机制自动学习分子特征与性质的相关性。然而现有研究多关注表面活性剂的分子性质,对系统中其他环境参数关注不足,难以充分捕捉分子结构与各环境参数联合效应对性质的影响。
基于此背景,研究人员系统收集整理了油田开发过程中表面活性剂在油水体系中测试的实验数据,建立了基于表面活性剂分子图、系统组成及操作条件的IFT预测模型,通过整合分子结构信息与实验环境参数,构建了能够反映构效关系的图神经网络架构。该研究发表于《ACS Omega》,对于降低EOR用表面活性剂的研发成本、促进油气资源高效稳产具有重要意义。
研究所采用的关键技术方法包括:样本来源于从112篇公开学术文献系统收集整合的2184个有效数据点,涵盖阴离子型、阳离子型、非离子型、Gemini/两性离子型、两性型、生物表面活性剂及聚合物或氟化物种等七大类表面活性剂化学类型;采用门控消息传递神经网络架构提取分子图拓扑特征;设计交叉注意力机制实现分子拓扑特征与环境参数的深度融合;采用对数变换结合z-score标准化的两阶段数据预处理方法应对IFT数据的跨数量级分布特性;构建基于Huber损失与均方误差(Mean Squared Error, MSE)加权的分段鲁棒损失函数;运用贝叶斯优化进行超参数调优;实施随机分层划分与留一类型法(Leave-One-Type-Out, LOTO)相结合的验证策略。
研究结果部分涵盖以下方面:
**综合性能比较**。Gated-MPNN-AT模型在所有关键指标上均取得最优性能。在训练集上,其R
2达到0.9397,MAE低至0.722 mN/m;在测试集上,R
2为0.9193,MAE为1.142 mN/m,对称平均绝对百分比误差(Symmetric Mean Absolute Percentage Error, sMAPE)和平均相对误差(Mean Relative Error, MRE)分别为47.49%和34.23%,均优于RF、XGBoost、GCN、GAT、标准MPNN及D-MPNN等基线模型。特别地,在低IFT值区域,Gated-MPNN-AT显著缓解了其他模型的系统性高估或离散问题,在高值范围亦展现出明显改进。
**损失函数比较**。采用改进损失函数的模型在测试集上R
2达0.9193,较MSE损失函数提升0.0328;MAE从1.552降至1.142 mN/m,降幅26.4%;sMAPE和MRE分别从65.61%和57.23%降至47.49%和34.23%。改进损失函数通过Huber阈值机制与区间加权策略构建自适应优化曲面,有效抑制高IFT样本的梯度主导效应,避免模型在高值区的过拟合。
**门控机制比较**。相较传统MPNN,门控机制使测试集R
2提升0.0479,sMAPE从53.93%降至47.49%(相对改善11.9%),MRE从37.60%降至34.23%(改善9.0%)。该机制通过GRU单元与自适应门控融合重塑消息传递动力学,避免传统MPNN线性求和聚合中的噪声积累和关键节点信息丢失。
**特征融合比较**。交叉注意力机制相较于简单拼接,使测试集R
2提升0.058(相对提升6.67%),MAE从1.451降至1.142 mN/m(降幅21.3%),sMAPE从55.07%降至47.49%。该机制实现从静态维度拼接到动态条件交互的转变,使模型能自适应确定分子结构与环境条件对IFT的影响权重。
**泛化评估**。通过LOTO验证评估模型对结构差异表面活性剂的泛化能力。当阴离子表面活性剂(573个数据点)、阳离子表面活性剂(431个数据点)或非离子表面活性剂(222个数据点)被分别保留为测试集时,测试R
2降至0.58-0.65范围,MRE分别升至75.6%、79.2%和85.4%。阴离子保留时泛化最佳(R
2=0.65),非离子保留时最具挑战(R
2=0.58),这与其多样化的头基架构及强温度依赖性水化效应有关。
**物理化学可解释性分析**。置换特征重要性分析显示,烷基链长、油相API度、对数变换后的表面活性剂浓度和温度位列前茅,其次是分子量和拓扑极性表面积。对于C8至C18的烷基硫酸钠同系物,预测IFT随链长增加从8.42 mN/m单调降至1.95 mN/m;在相同浓度和温度下,阴离子、非离子和阳离子表面活性剂的预测IFT中位数分别为1.76、4.14和5.50 mN/m,重现了已知的静电贡献层级。
研究讨论与结论部分指出:Gated-MPNN-AT模型通过门控消息传递神经网络提取分子图结构特征,并以注意力机制自适应融合环境参数,通过设计鲁棒损失函数解决了复杂分子结构效应、多尺度环境强非线性耦合及数据跨数量级分布导致的IFT预测精度低的问题。该模型实现了高预测精度和强泛化能力,改进损失函数有效缓解了IFT数据偏斜分布造成的优化困境,门控机制增强了MPNN的消息筛选能力并避免了深层网络中的信息冗余和梯度消失,交叉注意力机制通过动态权重分配实现了分子拓扑特征与环境参数的自适应耦合。同时,研究也承认门控与注意力机制的引入使模型参数增加约40%、训练时间延长35%,且作为纯数据驱动预测器未显式嵌入临界胶束浓度相界或温度诱导转变等热力学约束,环境表征的简化也限制了模型适用范围。未来工作将聚焦于构建更高质量的实验数据库,探索轻量化架构与物理信息融合策略,以降低计算成本并增强模型在苛刻储层条件下的泛化能力和可解释性。