使用随机森林回归方法预测三元可混溶有机混合物的闪点
《Journal of Loss Prevention in the Process Industries》:Flash point prediction of ternary miscible organic mixtures using random forest regression
【字体:
大
中
小
】
时间:2026年02月05日
来源:Journal of Loss Prevention in the Process Industries 4.2
编辑推荐:
本研究通过构建基于定量结构-性质关系(QSPR)的随机森林回归(RFR)模型,系统预测了六种三元水-有机混合物的闪点(FP)。利用Dragon软件计算组分分子描述符,采用对数混合规则生成混合物描述符,结合遗传算法(GA)筛选关键特征,最终模型在测试集上表现出优异性能(R2=0.9641,MAPE=0.6955%),并验证了其工业应用价值。
宋双宇|宋晓雅
江苏工业大学计算机工程学院,常州,213001,中国
摘要
测量在化工行业中广泛使用的多组分有机混合物的闪点(FP)是一个耗时且劳动密集的过程。尽管已经提出了许多闪点预测模型,但大多数模型主要集中在预测纯组分和二元混合物的闪点上,很少有研究关注三元或更高组分的混合物。在这项研究中,我们测量了6种三元水-有机混合物的341种组成的闪点,并利用所获得的数据基于定量结构-性质关系(QSPR)原理开发了一个闪点预测模型。使用Dragon软件为每种组分生成了分子描述符,并根据对数混合规则计算了混合物描述符。在模型构建过程中,采用了多阶段方法,利用随机森林回归(RFR)来开发一个高精度的模型来预测三元可混合有机混合物的闪点值。结果表明,我们提出的模型具有鲁棒性和预测能力,在测试集上获得了决定系数()、均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)分别为0.9641、3.4086、2.1961和0.6955%。此外,我们将我们提出的模型与文献中的其他现有三元混合物闪点预测方法进行了比较,以确认其优越性。这些结果可以应用于化工和工程领域中的火灾和爆炸危险评估。
引言
在化工和工程行业中,确保易燃液体的安全使用非常重要。混合物的闪点(FP)是液体易燃性危险的一个关键特征,它指的是在特定测试条件下,可燃的蒸汽和空气混合物能够在易燃液体上方形成的最低温度(Sosa等人,2024年)。通常,闪点值较低的物质具有更高的挥发性,从而带来更大的火灾风险(Da Cunha等人,2018年)。为了在安全操作过程中防止火灾或爆炸,必须事先了解物质的闪点值,因为它们是评估易燃性危险的主要属性。可以从诸如Lange的化学手册(Speight,2005年)和Bloxham等人维护的DIPPR数据库(2020年)等可靠资源中获取纯化合物的闪点数据。然而,在工业应用中,混合物更为普遍,混合物中每种组分的比例往往存在变化(Liaw等人,2011年)。尽管实验测量仍然是确定易燃液体闪点值的首选方法,但由于混合物的多样性或与毒性和放射性相关的问题,这种方法面临挑战。因此,迫切需要开发可靠的闪点预测方法,特别是针对混合物的方法,这一领域已经受到了研究人员的广泛关注。
在研究的早期阶段,主要使用基于物理化学性质(如沸点、密度和蒸气压)的经验相关性方法来估计闪点值。例如,Catoire通过考虑纯组分和混合物的正常沸点、蒸发热、纯组分的碳原子数以及蒸气-液相平衡数据来估计它们的闪点值(Catoire等人,2006年)。Gharagheizi提出了一种使用纯组分的正常沸点和碳原子数来估计闪点温度的方法(Gharagheizi等人,2011年)。Carroll通过使用从沸点派生的闪点数来估计有机化合物的闪点值(Carroll等人,2011年)。尽管这些方法计算简单,但它们往往与实验值有显著偏差。
为了提高预测精度,热力学模型被广泛用于闪点估计。其中,Liaw及其同事开发的方法是最可靠的预测多组分混合物闪点的框架之一。在这个模型中,假设气相是理想的,而液相中的非理想相互作用通过活性系数来表示,从而能够准确处理分子相互作用(Liaw和Chiu,2006年)。这一热力学框架已应用于二元和三元混合物,为闪点预测提供了严格的基础。在开发了模型之后,Liaw及其同事对三元易燃混合物的闪点行为进行了广泛研究(Lakzian和Liaw,2021年;Liaw等人,2022年;Lakzian和Liaw,2022年)。他们的研究揭示了三元系统的几个独特特征,包括强烈的组成依赖性非理想性和非线性闪点趋势。这些发现突显了三元混合物的复杂性,并说明了准确预测其闪点的挑战。
另一个相关的热力学框架是方法,其中气相和液相的逸度系数是从状态方程中获得的。Lakzian和Jalaei应用了方法结合Cubic-Plus-Association(CPA)状态方程来评估部分和完全可混合的水-酒精混合物的闪点(Lakzian等人,2020年)。这种方法为描述水-有机系统中的非理想行为提供了热力学框架,包括不同混溶度的混合物。和热力学方法,尽管广泛用于三元闪点预测,但它们严重依赖于准确的VLE输入,包括活性系数、EOS参数和二元相互作用参数。从二元混合物扩展到三元混合物会增加所需参数的数量,并使模型校准和数值实现复杂化(Nascimento等人,2024年;Privat等人,2013年;Salmani等人,2018年)。
除了热力学方法外,还广泛采用了基于物理化学性质的方法,其中闪点与实验可测量的性质相关联(Pan等人,2015年;Kim和Lee,2010年)。这些方法通常使用统计技术,包括多元线性回归(MLR)、多元非线性回归或支持向量机(SVM)。虽然计算效率高,但这些方法受到输入数据的可用性和准确性的限制,在处理高度非理想的多组分混合物时可能会遇到挑战。
最近,定量结构-性质关系(QSPR)模型作为一种有前景的闪点预测方法出现了(de Omena Souza等人,2025年;Li等人,2021年;Yao等人,2020年;Fayet和Rotureau,2019年;Heidari和Sobati,2023年;Jiao等人,2020年;Amirkhani等人,2022年)。与经验方法、热力学方法和基于物理化学性质的方法相比,QSPR具有几个优势:它可以在不依赖大量实验数据的情况下预测闪点值,避免复杂的热力学计算,并直接利用分子结构信息。此外,QSPR模型可以系统地开发并与机器学习技术结合使用,以提高预测精度。例如,Torabian使用人工神经网络(ANN)和增强替换方法开发了一个QSPR模型来预测各种二元和三元混合物的闪点值(Torabian和Sobati,2019年)。Wang使用基于分布式结构-性质关系的方法来估计纯组分以及二元和三元混合物的闪点值(Wang等人,2018年)。预测三元混合物的闪点比预测纯化合物或二元混合物更具挑战性,因为需要适当的规则来计算多组分描述符和更复杂的建模技术。计算多组分混合物描述符涉及考虑多个因素,而不仅仅是简单地将每个组分的分子描述符值相加。Saldana等人研究了多种计算多组分混合物中混合规则的方法,并总结了他们的发现(Saldana等人,2013年)。这些研究表明,除了传统的MLR方法(Uyan?k和Güler,2013年)之外,QSPR开发中采用了多种机器学习技术,通常与优化算法结合使用以提高模型性能。大多数应用于QSPR闪点预测的机器学习方法主要限于MLR、ANN或SVM,很少有研究使用集成学习技术(Sagi和Rokach,2018年),特别是随机森林(RF)算法(Genuer等人,2020年)。与这些传统方法相比,RF具有几个优势:它可以自然捕捉非线性关系,对过拟合具有鲁棒性,并提供特征重要性度量,使其成为多组分混合物闪点预测的更有前途的方法。
在这项研究中,我们使用了一组三元可混合的水-有机混合物作为研究样本,并通过应用多阶段的随机森林回归(RFR)(Li等人,2018年)方法构建了一个QSPR模型来预测这些混合物的闪点值。为此,我们使用Dragon软件(Mauri等人,2006年)为每种混合物组分计算分子描述符,并应用对数混合物描述符计算规则来获得三元混合物的分子描述符(Saldana等人,2013年)。在选择分子描述符的关键阶段,我们设计了一种结合遗传算法(GA)(Katoch等人,2021年)和RFR的方法来识别混合物的关键分子描述符。然后将这些识别出的分子描述符作为开发模型的输入参数。在训练模型之前,通过网格搜索策略优化了RFR超参数(Liashchynskyi和Liashchynskyi,2019年),从而得到了一个高性能的QSPR模型用于闪点预测。所提出的模型仅基于有关组分和比例的信息就能准确预测三元混合物的闪点值。这项研究的主要目标是开发一个能够准确预测三元混合物闪点值的鲁棒QSPR模型,从而有助于工业操作中的风险评估,并提高化学品处理、储存和运输过程中的安全性。
实验数据
本研究共考虑了7种纯有机物质,包括1-丁醇、乙醇、丙酸、1-戊醇、2-甲基-1-丙醇、甲醇和异丙醇。通过将水与两种有机组分结合,制备了6种三元水-有机系统,如表1所示。在这些系统中,通过系统地改变三种组分的比例,生成了总共341种不同的组成。在这些样品下获得了闪点测量值
RFR模型的结果
在对第2.2节获得的284个混合物描述符进行GA-RFR选择程序后,保留了6个描述符,其详细描述见表3。在随后的超参数优化程序中,确定了四个RFR超参数:p1 90,p2 15,p3 2,以及p4 1。为了清楚地观察不同参数组合下MSE的变化,图4还提供了一个显示MSE值的图表
结论
在这项工作中,开发了一个基于RFR模型的系统QSPR框架来估计三元水-有机混合物的闪点值。生成了混合物级别的分子描述符,并应用了GA-RFR策略来选择六个最具信息量的特征,从而得到了一个紧凑且易于解释的模型。该模型经过了严格的验证,显示出高预测精度,与实验数据非常吻合,并且与先前报道的三元模型相比具有更好的性能
CRediT作者贡献声明
宋双宇:撰写——审阅与编辑,撰写——原始草稿,监督,软件,资源,项目管理,方法论,研究,资金获取,正式分析,数据管理,概念化。宋晓雅:撰写——原始草稿,可视化,验证,软件,正式分析,数据管理,概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作得到了江苏工业大学人才培养项目(资助编号:KYY20008)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号