
-
生物通官微
陪你抓住生命科技
跳动的脉搏
PHYSPROPNET:在数据有限的环境研究中,对用于预测物理化学性质的机器学习模型进行的基准测试研究
《ACS ES&T Water》:PHYSPROPNET: A Benchmarking Study of Machine Learning Models for Physicochemical Property Prediction in Data-Limited Environmental Research
【字体: 大 中 小 】 时间:2025年11月18日 来源:ACS ES&T Water 4.3
编辑推荐:
机器学习在环境化学中的应用研究表明:对比8种GNN和9种传统算法,使用5种分子描述符评估11项理化性质与环境行为。小规模数据(如半衰期150例)传统模型(LightGBM/CatBoost/Random Forest)效率更高且可解释性强;大数据(如LogP 10,652例)GNN表现更优。综合模型精度、误差和计算成本,RDKit特征+LightGBM最优。分析显示分子特征和图结构均可捕捉化学结构-性质关系。这为不同数据规模下的模型选择提供了实用指导。

机器学习在环境化学中的应用日益广泛,用于污染物筛查和性质预测,但目前缺乏统一的评估标准。我们比较了八种图神经网络(GNN)和九种传统学习算法,这些算法结合了五种分子描述符和指纹集,针对美国环保署(EPA)PHYSPROP数据库中的11种物理化学和环境性质进行了测试。数据集规模从包含10,652种化合物的LogP属性到仅包含150种化合物的半衰期(LogHL)属性不等,评估方法包括随机划分和支架划分两种方式。模型准确度主要取决于数据集规模和分子表示方式。对于化合物数量少于约1,000种的指标,使用RDKit或Mordred特征,并结合LightGBM、CatBoost或随机森林的描述符基模型,其准确度与GNN相当或更高,且训练时间更短。对于较大的数据集,GNN的准确度也达到了可比甚至更高的水平。综合考虑准确度、误差和计算成本的综合排名显示,结合LightGBM和RDKit描述符的配置是最有效的。特征归因分析证实,描述符模型和图模型都能捕捉到具有化学解释性的结构-性质关系。这些结果为实际应用提供了指导:描述符模型适用于小型到中型数据集,或需要透明度和高处理效率的应用场景;而当数据规模增大或需要更丰富的分子背景信息时,图模型则更具优势。