基于小数据集,对机器学习模型进行深入研究,以预测有机磷杀虫剂对光杆菌(Photobacterium phosphoreum)的毒性

《EMC - Urología》:Insight into Machine Learning Models to Predict Toxicity of Organophosphorus insecticides to Photobacterium phosphoreum Based on a Small Dataset

【字体: 时间:2025年11月23日 来源:EMC - Urología

编辑推荐:

  有机磷杀虫剂(OPIs)对光感受菌的毒性预测及结构优化策略研究。基于小样本数据,通过量子化学计算与电势面分析提取25种分子 descriptors,采用三阶段特征筛选(高相关性、低共线性、综合评分)保留5种关键参数。集成七种机器学习模型(RF、GB、EN等)构建最优预测模型,R2达0.961,外部验证集R2为0.942。SHAP分析揭示电荷平衡(BOV)和电负性电位点(PAV)为关键毒性因子,结合结构破碎分析提出:氯苯基替换为氟苯基、硫基替换为氧基、长烷基链改短可显著降低毒性。该研究为绿色OPIs设计提供理论支撑,验证了计算毒理学在小数据场景的应用价值。

  本研究聚焦于有机磷杀虫剂(Organophosphorus Insecticides, OPIs)的环境和健康风险,旨在通过机器学习方法建立定量构效关系(Quantitative Structure-Activity Relationship, QSAR)模型,以预测OPIs对发光菌(*Photobacterium phosphoreum*)的毒性。有机磷杀虫剂因其高效、广谱、快速作用以及较低的环境残留而广泛应用于农业害虫防治和公共卫生领域。然而,这些化合物在环境中具有高水溶性和高生态毒性,可能对生态系统安全和非目标生物的健康构成威胁。此外,长期低剂量暴露可能引发神经毒性、生殖毒性等健康问题,这使得传统实验方法在评估OPIs毒性方面存在效率低、成本高和不适用等问题。

面对传统方法的局限性,本研究引入了基于机器学习的QSAR模型,利用小规模数据集构建具有预测能力的模型。该模型在七个维度上进行构建,通过特征描述符筛选和集成预测策略,以提升模型的稳定性和泛化能力。具体而言,研究者采用了一种分层的特征选择方法,包括去除低相关性和高共线性特征、通过随机森林算法分析特征重要性,并最终筛选出五种关键的分子描述符。这些描述符涵盖了分子的电荷平衡、电子性质、疏水性等关键特性,为理解OPIs的毒性机制提供了新的视角。

模型构建过程中,研究团队采用了七种机器学习算法,包括岭回归(Ridge Regression)、弹性网络(ElasticNet)、贝叶斯岭回归(Bayesian Ridge)、支持向量回归(Support Vector Regression)、随机森林(Random Forest)、梯度提升(Gradient Boosting)和高斯过程回归(Gaussian Process Regression)。为了提高模型的预测性能,研究者采用了一种嵌套贝叶斯优化框架,对每种算法的超参数进行优化,并通过Leave-One-Out Cross-Validation(LOO-CV)和蒙特卡洛交叉验证(Monte Carlo Cross-Validation, MCCV)确保模型的鲁棒性。最终,研究者通过加权平均策略,将预测性能最佳的三种模型(随机森林、梯度提升和弹性网络)整合为一个集成模型,该模型在训练集和LOO-CV测试集上分别取得了R2 = 0.961、RMSE = 0.184、MAE = 0.156的优异表现。此外,该模型在外部验证集上的预测性能也表现良好,R2 = 0.942、RMSE = 0.21、MAE = 0.23,表明其具有较强的泛化能力。

在模型解释方面,研究团队采用SHAP(SHapley Additive exPlanations)方法,对模型的特征贡献进行了深入分析。通过SHAP分析,研究者发现OPIs的毒性主要受到电荷平衡(Balance of Charges)和电亲和力(Electrophilic Potential)的影响。这些特征反映了分子结构中正负电荷的分布以及分子与生物靶点之间的相互作用能力。例如,电荷平衡较高的分子更容易与生物膜发生作用,从而影响其生物活性;而电亲和力较强的分子则可能通过与酶活性中心的共价结合,抑制发光反应。此外,研究者还通过分子结构的碎片化分析,发现将氯苯基替换为氟苯基、将硫原子替换为氧原子、以及将长链烷基替换为短链烷基,可以显著降低OPIs的毒性。这些发现不仅揭示了OPIs结构与毒性之间的内在联系,也为未来绿色OPIs的设计提供了理论依据。

研究团队还强调了在小数据集上构建QSAR模型的挑战,以及如何通过科学的特征选择策略和模型集成方法克服这些挑战。传统的机器学习模型在小数据集上容易出现过拟合问题,而通过多步骤的特征筛选,可以有效减少冗余信息,提高模型的稳定性。此外,集成模型的引入不仅增强了模型的预测能力,还提升了其在实际应用中的可靠性。研究者指出,这一方法为环境毒理学研究提供了一种新的思路,尤其是在应对新兴污染物的毒性评估方面,具有广阔的应用前景。

本研究的创新之处在于,通过结合量子化学计算和分子表面电势分析,构建了全面的分子描述符体系,并通过机器学习方法对这些描述符进行筛选和优化,最终形成了一个高效、稳定且可解释的QSAR模型。该模型不仅能够准确预测OPIs对发光菌的毒性,还为绿色化学设计提供了重要的指导。通过分析关键分子特征对毒性的影响,研究者能够指导新化合物的设计,以降低其潜在毒性并提高环境友好性。例如,氟取代氯可以增强分子稳定性并降低其与生物分子的相互作用能力,从而减少毒性;氧取代硫则可能降低分子的亲电性,进而减少对生物系统的干扰;短链烷基的使用则有助于降低分子的疏水性,减少其在环境中的持久性。

本研究还指出,尽管当前的QSAR模型在小数据集上表现良好,但仍存在一些局限性。首先,数据的稀缺性仍然是影响模型预测准确性的关键因素,尤其是在应对新型污染物时,数据不足可能导致模型泛化能力受限。其次,某些取代基的组合可能对毒性贡献产生模糊效应,需要进一步的实验验证。因此,研究者建议未来的研究可以引入机制模型(mechanism-based models)以增强对毒性作用机制的理解,并结合模式识别方法,进一步提升模型的预测精度和解释能力。

此外,研究团队强调了QSAR模型在环境毒理学中的应用价值。随着绿色化学理念的普及,如何在保持杀虫效果的同时减少对环境和人体健康的潜在危害,成为农药研发的重要方向。QSAR模型作为一种计算毒理学工具,能够有效降低实验成本,提高研发效率,同时为环境风险评估提供科学依据。本研究通过建立可解释的QSAR模型,不仅为OPIs的绿色设计提供了理论支持,也为其他有机化合物的毒性预测提供了可借鉴的方法框架。

在研究方法上,本研究采用了系统化的实验设计和计算分析相结合的策略。首先,通过实验测定OPIs对发光菌的急性毒性,获得了实验数据,并将其转化为-Log (EC??)形式,以方便后续分析。其次,通过PubChem数据库获取分子结构信息,并结合ChemOffice、Gaussian和Multiwfn等软件,计算了多种分子描述符。这些描述符不仅包括分子的物理化学性质,还涵盖了电荷分布、电子能量等关键信息。通过这些计算,研究者能够更全面地理解分子结构与毒性之间的关系,并为模型构建提供坚实的理论基础。

本研究的结论表明,基于小数据集构建QSAR模型是可行的,尤其是在结合特征筛选、模型集成和贝叶斯优化等策略后,可以有效提高模型的预测能力和解释性。此外,模型的构建和验证过程符合OECD的模型适用性域(Applicability Domain, AD)分析标准,确保了模型在实际应用中的可靠性。未来,随着计算方法的不断进步和实验数据的积累,QSAR模型有望在更多领域发挥重要作用,为环境毒理学、绿色化学和农药设计提供更加精准和高效的工具。

总的来说,本研究为有机磷杀虫剂的毒性评估和绿色设计提供了新的方法和思路。通过结合实验数据和计算方法,研究者不仅揭示了OPIs结构与毒性的关系,还提出了具体的分子设计策略,以降低其环境风险。这些成果对于推动环境友好型农药的开发,以及提升计算毒理学在实际工程中的应用具有重要意义。未来,随着对分子结构与生物活性关系的进一步研究,QSAR模型有望成为环境毒理学和绿色化学领域的重要工具,为可持续发展提供科学支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号