非洲爪蟾胚胎化学品急性发育毒性预测:基于回归QSAR模型的建立与验证及其在两栖类危害评估中的应用

《Toxicology Letters》:Predicting acute developmental toxicity of chemicals in embryos of the African clawed frog ( Xenopus laevis): calibration and validation of regression-based quantitative structure activity relationship models for hazard assessment of chemicals in anuran amphibians

【字体: 时间:2026年01月04日 来源:Toxicology Letters 2.9

编辑推荐:

  本研究针对两栖类动物种群衰退及化学品生态风险评估数据匮乏问题,开发了两种定量构效关系(QSAR)模型——k-最近邻(k-NN)和多元线性回归(MLR)模型,用于预测化学品在非洲爪蟾(Xenopus laevis)胚胎中的急性毒性(12小时LC50)。通过整合US EPA ECOTOX等数据库的349种化合物数据,经严格数据筛选后建立包含175种化合物的数据集。结果表明MLR模型性能略优(R2=0.76,RMSE=0.63),为两栖类生态风险评估和新方法(NAMs)应用提供了重要计算工具。

  
在全球两栖类种群数量急剧下降的背景下,化学品暴露被认为是重要致危因素之一。非洲爪蟾作为经济合作与发展组织(OECD)认可的标准化测试物种,在发育毒理学研究中具有重要地位,特别是其对内分泌干扰物敏感的甲状腺轴信号通路。然而,目前缺乏能够预测化学品在两栖类中急性毒性的开源计算模型,这严重制约了生态风险评估和新方法(New Approach Methodologies, NAMs)的应用。
为此,Christian Novello等研究人员在《Toxicology Letters》上发表了关于非洲爪蟾胚胎急性发育毒性预测模型的研究。该研究系统收集并整理了来自US EPA ECOTOX知识库和Ortiz-Santaliestra数据库的349种独特结构的1978个数据条目,经过严格的数据筛选流程后,最终获得包含175种化合物的430个LC50值。研究人员采用12小时暴露的半数致死浓度(LC50)作为终点,将数据转换为摩尔浓度的负对数(12小时log 1/LC50mmol/L)进行分析。
研究采用两种不同的建模策略:基于分子相似性的k-最近邻(k-Nearest Neighbours, k-NN)模型使用istKNN软件开发,以及基于描述符的多元线性回归(Multiple Linear Regression, MLR)模型使用QSARINS软件构建。数据集按3:1的比例随机分为训练集(120种化合物)和测试集(40种化合物),另设预测集(13种化合物)用于评估模型在实验数据变异较大情况下的性能。
关键技术方法包括:1)从US EPA ECOTOX和Ortiz-Santaliestra数据库系统收集Xenopus laevis胚胎急性毒性数据;2)使用Dragon 7.0和PaDEL-Descriptor计算分子描述符;3)采用主成分分析(Principal Components Analysis, PCA)评估训练集与测试集的化学空间覆盖度;4)应用k-NN算法和遗传算法(Genetic Algorithm, GA)进行变量选择与模型构建;5)通过留一法交叉验证(Leave-One-Out cross-validation)和外部验证评估模型性能。

3.1. Xenopus胚胎数据库

经过数据筛选后,最终数据库包含430个LC50值,对应175种化合物。毒性值分布显示数据库涵盖广泛的毒性范围,从高毒性到低毒性化合物均有代表。通过主成分分析证实训练集与测试集在化学空间中有良好重叠,确保测试集能有效代表训练集的化学特征。

3.2. k-NN模型性能

k-NN模型通过优化参数组合,在训练集上达到决定系数(R2)0.746和均方根误差(Root Mean Square Error, RMSE)0.63,在测试集上R2为0.74,RMSE为0.67。模型能对76.2%的训练集化合物和80%的测试集化合物进行有效预测。然而,对高毒性化合物的预测存在系统性低估,这与数据库中此类化合物代表性不足有关。

3.3. QSARINS模型

QSARINS开发的MLR模型表现略优于k-NN模型,训练集R2为0.7637,调整后R2(R2adj)为0.7514,留一法交叉验证Q2(Q2loo)为0.7379。外部验证显示Q2-F3为0.7919,RMSEext为0.6302。通过威廉姆斯图(Williams plot)和残差分析确定了模型的适用性域(Applicability Domain, AD)和可靠性域(Reliability Domain, RD)。

4.1. k-NN模型

k-NN模型表现出对中等毒性化合物的预测倾向,对高毒性化合物存在低估,对低毒性化合物存在高估。这种偏差与数据库中高毒性化合物数量较少及实验数据变异性有关。模型对约20-25%的高毒性化合物无法产生预测,主要原因是相似化合物的实验值变异过大。

4.2. QSARINS建模

QSARINS模型与k-NN模型显示出相似的预测模式,但对高毒性化合物的预测能力有所改善。两种模型在无法预测和预测异常的化合物上高度一致,表明这些化合物的结构特征或毒性机制在现有数据库中代表性不足。模型识别出8种化合物超出适用性域,20种化合物超出可靠性域。

4.3. 化学空间覆盖度和模型适用性

当前QSAR模型在已筛选的数据集化学空间内表现可靠,但对高毒性、非基线毒物(如强亲电试剂、强酸强碱和有机金属化合物)的覆盖不足。这些化合物通过特定分子起始事件(Molecular Initiating Events, MIEs)而非基线麻醉(baseline narcosis)发挥作用,现有数据库对其代表性有限。

4.4. 监管评估相关性和OECD QSAR评估框架一致性

模型开发遵循OECD QSAR验证原则,支持最新的OECD QSAR评估框架(QSAR Assessment Framework, QAF)。明确定义了终点(12小时LC50),详细描述了建模算法,界定了适用性和可靠性域,并报告了内部和外部验证指标。这些元素满足了QAF模型检查表的多个评估要素。
本研究建立了目前最大的非洲爪蟾胚胎急性发育毒性数据库,并开发了两种性能良好的QSAR预测模型。k-NN模型基于分子相似性原理,提供直观的类似读跨(read-across)推理;MLR模型基于描述符选择,提供略优的预测性能。两种模型均显示出对高毒性化合物预测的系统性偏差,这反映了当前数据库的结构局限性。未来研究方向包括扩展数据库覆盖更多毒性机制类别,开发其他终点(如致畸性EC50)的模型,以及将方法扩展到其他两栖类物种和发育阶段。这项工作为将两栖类纳入化学品生态风险评估提供了重要计算工具,符合21世纪毒理学愿景和下一代风险评估方法,支持动物试验的减少、优化和替代(3Rs)原则。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号