创新元集成学习框架:精准预测离子液体毒性,助力绿色化学发展

【字体: 时间:2025年04月22日 来源:Artificial Intelligence Chemistry

编辑推荐:

  在化学领域,离子液体(ILs)作为潜在绿色溶剂,其毒性研究至关重要。研究人员开展了 “Enhanced prediction of ionic liquid toxicity using a meta - ensemble learning framework with data augmentation” 的研究。结果显示,所提模型在数据增强后性能大幅提升,这为设计更安全有效的离子液体提供了有力工具。

  在化学的奇妙世界里,离子液体(ILs)就像一群特殊的 “小精灵”。它们是由离子组成的液体,熔点低于 100 摄氏度,有着独特的性质。近年来,离子液体备受关注,因其在众多领域,如萃取、吸附、电化学和生物催化等,都展现出了巨大的应用潜力。而且,它们在室温下几乎没有蒸气压,不易燃,物理和化学稳定性强,被视为传统溶剂的理想替代品。然而,这个 “小精灵” 却隐藏着一个不为人知的秘密 —— 毒性。尽管被称为绿色溶剂,但研究发现,离子液体对鱼类、植物、细胞和微生物等都存在不同程度的毒性。随着离子液体的广泛使用,其毒性问题不容忽视。由于离子液体的种类繁多,通过实验逐一测试其毒性既不现实也不经济,因此,开发高效准确的计算模型来预测离子液体的毒性迫在眉睫。
为了解决这一难题,来自未知研究机构的研究人员开展了一项关于 “Enhanced prediction of ionic liquid toxicity using a meta - ensemble learning framework with data augmentation” 的研究,该研究成果发表在《Artificial Intelligence Chemistry》上。研究人员提出了一种创新的元集成学习框架,旨在准确预测离子液体的毒性。

研究人员主要运用了以下几种关键技术方法:首先,从相关文献获取包含 355 个离子液体的数据集,以 logEC50(半数最大有效浓度的常用对数,表示毒性,数值越高毒性越低)表示毒性数据。然后,利用摩根算法(Morgan algorithm)和 RDKit 描述符从 SMILES(简化分子线性输入规范)字符串计算并整合分子指纹,构建综合特征矩阵。接着,使用递归特征消除(Recursive Feature Elimination,RFE)结合随机森林回归器(RandomForestRegressor)进行特征选择,确定最优特征数量。最后,以随机森林(Random Forest)、支持向量回归(Support Vector Regression,SVR)、分类提升(Categorical Boosting,CatBoost)、化学卷积神经网络(Chemception)为基础模型,极端梯度提升(XGBoost)为元模型进行集成学习,并通过网格搜索交叉验证(GridSearchCV)和随机搜索交叉验证(RandomizedSearchCV)调整超参数 。

在研究结果部分:

  • 模型性能对比分析:通过对比有无数据增强的模型性能,发现数据增强后模型在预测准确性上有显著提升。以根均方误差(RMSE)、平均绝对误差(MAE)、决定系数(R2)和皮尔逊相关系数衡量,数据增强后的模型 RMSE 从 0.38 降至 0.06,MAE 从 0.29 降至 0.024,R2从 0.87 提升至 0.99,皮尔逊相关系数从 0.94 提升至 0.99 。从实际与预测值的关系来看,数据增强后的模型预测值与实际值更紧密地聚集在对角线上,残差分布更窄且集中在零附近,表明预测误差显著降低,模型准确性和一致性提高。
  • 置信区间分析和统计显著性:对有无数据增强的模型进行统计分析,结果显示数据增强后的模型预测准确性更高。无数据增强模型的平均预测值为 2.9527,95% 置信区间为 2.6760 - 3.2294,标准差为 0.396,配对 t 检验的 t 统计量为 - 1.053,p 值为 0.296,表明预测值与实际值无显著差异且预测变异性较大;而数据增强后的模型平均预测值为 3.0965,95% 置信区间为 2.9994 - 3.1936,标准差为 0.086,配对 t 检验的 t 统计量为 - 3.799,p 值为 0.00017,表明预测值与实际值有显著差异,且模型预测更精确、一致 。
  • 模型比较:将该模型与之前的模型进行比较,发现所提模型,尤其是加入数据增强后,在预测离子液体毒性方面表现卓越。与前馈神经网络(FNN)、支持向量机(SVM)、多元线性回归(MLR)等模型相比,该模型的 RMSE 和 MAE 显著降低,R2和皮尔逊相关系数更接近 1,展现出更强的稳健性和预测准确性。
  • 重要特征讨论:研究确定了影响毒性的重要分子特征,如 SMR_VSA5(范德华表面积与摩尔折射度加权贡献,反映色散力)、fr_unbrch_alkane(未支链烷烃片段数量,体现分子柔性)和 VSA_EState7(电拓扑状态描述符,总结电子和几何性质)等。这些特征从不同方面影响离子液体与生物系统的相互作用,进而影响毒性。
  • 数据增强对高 EC50值的影响:数据增强改善了高 EC50值(低毒性)化合物的预测性能。这是因为数据增强平衡了数据集分布,增加了化学多样性,改进了低毒性模式的表示,减轻了过拟合,并放大了稀疏表示区域的信号,使模型能更好地捕捉与低毒性相关的模式。

在结论和讨论部分,研究人员提出的元集成学习框架结合数据增强技术,为离子液体毒性预测提供了一种强大而准确的方法。该框架通过整合多种机器学习模型的优势,利用特征选择和超参数调优,显著提升了预测性能。这不仅有助于设计更安全、更有效的离子液体,符合绿色化学的原则,还为定量构效关系(QSAR)建模提供了可重复的框架,推动了化学信息学和环境科学领域的发展。未来,研究人员可进一步探索新的数据增强方法,结合实验验证,并将该框架应用于更广泛的分子数据集,以拓展其在相关领域的应用价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号