基于OECD测试指南数据的机器学习模型系统开发及其在人类与生态毒性预测中的应用

【字体: 时间:2025年07月21日 来源:Computational Toxicology 3.1

编辑推荐:

  本研究针对化学风险评估中传统体内实验的局限性,基于OECD测试指南(TG)数据系统开发了680个机器学习模型,涵盖急性毒性(TG 420/402/403)、发育毒性(TG 414)等17个关键终点。采用MACCS/Morgan等分子指纹和XGBoost等算法,最佳模型F1分数≥0.5,为下一代风险评估(NGRA)提供了符合监管需求的NAMs新方法。

  

在化学物质安全管理领域,传统动物实验面临伦理争议和效率瓶颈的双重挑战。随着韩国《化学物质注册评估法》(K-REACH)和欧盟《生物杀灭剂法规》(BPR)等法规的实施,对符合经济合作与发展组织(OECD)测试指南(TG)的毒性数据需求激增。然而,实验测试成本高昂且周期漫长,这促使科学家们将目光投向人工智能(AI)驱动的新方法学(NAMs)。韩国环境产业技术研究院(KEITI)资助的研究团队在《Computational Toxicology》发表的重要研究,系统开发了基于OECD TG数据的机器学习模型,为化学风险评估开辟了新路径。

研究团队采用多技术联合作战:首先从eChemPortal数据库提取22个TG数据集,通过剂量描述符标准化和盐形式转换等预处理;随后采用MACCS、Morgan等4种分子指纹进行特征工程;最后运用逻辑回归、XGBoost等5种算法构建680个预测模型。所有模型性能均通过F1分数、AUC-ROC等指标严格评估。

【数据分布】研究揭示了关键数据特征:淡水藻类生长抑制试验(TG 201)数据量最大,但80%终点数据不足千例,且普遍存在类别不平衡问题。这种数据现状为模型开发带来挑战,也凸显了本研究填补数据空白的重要性。

【模型性能】在17个TG终点中,急性毒性(TG 420/402/403)和溞类急性活动抑制试验(TG 202)模型表现最佳(F1≥0.5)。值得注意的是,发育毒性(TG 414)模型虽达到基准,但致癌性(TG 453)模型仅勉强合格,反映复杂毒性终点的建模难度。

【技术突破】研究创新性地发现:随机森林算法在多数终点表现稳健;Morgan指纹对生态毒性表征效果突出;而数据量超过千例时,模型性能可提升30-50%。这些发现为后续研究提供了明确的技术路线。

【局限与展望】作者坦诚指出当前模型的"黑箱"特性是监管应用的主要障碍,建议结合有害结局路径(AOP)框架增强可解释性。同时强调需要开发数据增强技术应对小样本挑战,并建立预测可靠性指标提升监管接受度。

这项研究标志着毒性预测从经验驱动向数据驱动的范式转变。通过建立与K-REACH、EU BPR等法规直接对接的预测体系,不仅可减少80%以上的动物实验,更能加速化学品安全评估流程。特别值得关注的是,研究团队开创的"TG-机器学习"映射模式,为将AI预测结果直接纳入监管决策提供了模板。随着模型性能的持续优化,这套系统有望成为下一代风险评估(NGRA)的核心工具,推动全球化学品管理进入智能时代。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号