综述:基于ToxCast数据的AI毒性预测模型研究现状与可解释模型未来方向

【字体: 时间:2025年07月10日 来源:Toxicology 4.8

编辑推荐:

  这篇综述系统梳理了93篇文献,全面阐述如何利用美国环保署(EPA)ToxCast数据库开发生物活性数据驱动的人工智能(AI)毒性预测模型,重点探讨分子表征方法(如ECFP指纹、GNN图神经网络)、学习算法(如RF随机森林、SVM支持向量机)的创新应用,并前瞻性提出通过整合有害结局路径(AOP)框架构建兼具预测性和可解释性的下一代风险评估(NGRA)模型。

  

背景
毒性预测领域正经历从传统动物实验向计算毒理学的范式转变。美国环保署(EPA)的ToxCast计划通过标准化流程整合了24个检测平台的1485种生物测定数据,涵盖8305种化学物质,成为AI模型开发的金标准数据库。该数据库独特的价值在于既可作为模型标签(如内分泌干扰活性),又能作为生物特征预测体内毒性,为构建机制驱动的可解释模型提供了可能。

研究特征
2015-2023年间相关文献数量增长近3倍,其中85%研究将ToxCast数据作为标签使用。值得注意的是,Tox21挑战赛数据集因易获取性成为计算机领域验证新算法的热门基准——在32项相关研究中,87.5%仅采用AUC指标而忽略更适合不平衡毒性数据的F1分数(均值仅0.573),反映出跨学科研究的评价标准差异。

技术趋势
分子表征呈现多元化发展:

  • 传统方法:扩展连接指纹(ECFP)和Mol2描述符仍占主导
  • 新兴技术:图神经网络(GNN)处理分子拓扑结构,3D分子表面静电势点云捕捉空间信息,SMILES字符串结合自然语言处理(NLP)技术
    肝毒性预测模型最常采用生物描述符(4项研究),通过整合肝细胞死亡标志物等ToxCast检测数据,使模型兼具预测性能和机制解释性。

算法革新
超越传统监督学习的新范式崭露头角:

  • 自监督学习:Liu等开发的PLANS框架通过未标记数据预训练GINFP图嵌入,在Tox21数据上F1值提升显著
  • 元学习:ATGNN框架通过任务自适应迁移在少量样本场景下AUC达0.86
  • 多任务学习:Wang等开发的胶囊网络(CapsNet)同步预测12种Tox21生物活性,AUC提高至0.89

挑战与展望
当前瓶颈在于ToxCast检测与体内毒性的相关性验证——甲状腺相关检测仅显示58-78%的一致性。未来应重点发展:

  1. 剂量反应建模:利用AC50等定量参数结合体外-体内外推(IVIVE)
  2. 多源数据整合:将高通量表型分析(HTPP)等数据纳入有害结局路径(AOP)框架
  3. 评价标准优化:针对高度不平衡数据优先采用F1分数

这些进展将推动可解释AI模型在下一代风险评估(NGRA)中的应用,最终实现减少动物实验的3R(替代、减少、优化)目标。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号