
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于可解释机器学习的离子液体毒性预测与结构调控机制研究
【字体: 大 中 小 】 时间:2025年06月09日 来源:Chinese Journal of Chemical Engineering 3.7
编辑推荐:
本研究针对离子液体(ILs)潜在毒性制约其绿色应用的关键问题,采用Bagging、AdaBoost等6种机器学习算法,构建了针对IPC-81细胞、AChE等4种生物体系的毒性预测模型。通过SHAP可解释性分析揭示了SMR_VSA5等分子描述符对毒性的正向调控作用,为环境友好型ILs的定向设计提供了理论依据。
离子液体(ILs)作为21世纪最具潜力的绿色溶剂,以其近乎零挥发性和可设计的分子结构,在能源存储、碳捕集等领域展现出巨大应用前景。然而随着ILs年产量的指数级增长,其生态毒性问题日益凸显——英国某垃圾填埋场周边土壤中检出的1-辛基-3-甲基咪唑鎓盐,已被证实可能诱发原发性胆汁性胆管炎。更严峻的是,ILs的理论组合数量高达1万亿种,传统实验方法难以全面评估其生物毒性。现有研究多聚焦于白血病大鼠细胞IPC-81的毒性测试,缺乏跨物种的系统性研究,且机器学习模型普遍存在"黑箱"难题,无法解析毒性产生的分子机制。
为解决上述问题,广东某高职院校的研究团队在《Chinese Journal of Chemical Engineering》发表研究,创新性地整合6种集成学习算法与SHAP可解释性分析技术。研究首先从简化分子线性输入规范(SMILES)提取分子描述符,采用CatBoost等算法构建了覆盖IPC-81、AChE、大肠杆菌和发光细菌的四体系毒性预测模型。通过SHAP值量化各特征贡献度,首次发现SMR_VSA5(与分子极性相关的描述符)和Kappa2(分子拓扑指数)是提升毒性的关键因素,而VSA_EState7(电拓扑状态描述符)则呈现显著负相关。研究还证实吡啶环数量与毒性呈正相关,氢键受体数量则相反。
Machine Learning Models
研究对比了Bagging、AdaBoost等6种集成算法的预测性能,其中CatBoost凭借有序提升(Ordered Boosting)机制,在四类生物体系测试中均保持最低的MSE(均方误差<0.15)。特别值得注意的是,模型学习曲线显示,当IPC-81数据集样本量达到140时,预测精度进入稳定平台期。
Learning curve of models
通过分析训练集规模与MSE的关系,发现AChE体系需要200个数据点才能达到最优预测效果,而微生物体系(E.coli
和Vibrio fischeri
)仅需120个样本即可收敛,这为后续毒性数据库建设提供了量化依据。
Conclusions
该研究构建了目前覆盖最广的ILs毒性预测体系,首次通过可解释AI技术揭示了分子量、吡啶环数量等12个关键毒性调控因子。其中SMR_VSA5描述符每增加1个单位,对IPC-81细胞的毒性贡献值达0.38 SHAP units,这一发现为"减毒设计"提供了明确方向。相比传统QSAR方法,该模型的RMSE(均方根误差)降低42%,且能可视化呈现分子片段与毒性的定量关系。
这项研究的突破性在于将机器学习从预测工具升级为分子设计指南:一方面证实延长烷基链会通过增加疏水性提升毒性,这与Jeremias等通过RNA测序获得的结论相互印证;另一方面首次发现氧原子占比与毒性负相关,为合成低毒ILs提供了新思路——例如在阳离子中引入醚键可增加氢键受体数量从而降低毒性。这些发现将加速环境友好型ILs的工业化应用进程,对实现"双碳"目标具有重要意义。
生物通微信公众号
知名企业招聘