基于多任务深度学习的发育与生殖毒性机制预测模型:整合ToxCast生物测定与人工智能方法

《Frontiers in Toxicology》:Multi-task deep learning models for mechanism-based prediction of developmental and reproductive toxicity (DART) using ToxCast bioassays

【字体: 时间:2026年02月05日 来源:Frontiers in Toxicology 4.6

编辑推荐:

  本文提出一种机制导向的多任务深度学习框架,利用23个与发育和生殖毒性(DART)关键通路相关的ToxCast生物测定数据,通过对比四种前沿深度学习架构(DGCL、TransFoxMol、MolPath、MolFormer),证明DGCL模型在F1分数(0.68)和外部验证(ECVAM ReProTect数据集)中显著优于传统机器学习方法,为替代动物实验提供了可解释的NAMs新策略。

  
引言
发育与生殖毒性(DART)评估长期依赖动物实验,存在成本高、周期长和物种差异等局限。为推进新方法学(NAMs)的应用,本研究基于23个机制关联的ToxCast生物测定数据,构建多任务深度学习模型,旨在突破传统机器学习在数据不平衡和跨通路整合中的性能瓶颈。
方法
研究设计涵盖数据收集、模型开发与外部验证三阶段。从ToxCast数据库筛选的23个DART相关生物测定涉及类固醇激素通路(如雌激素受体ERα)、细胞外基质组织和血管生成等关键机制。数据预处理采用SMOTE技术平衡类别分布,分子表征涵盖序列型(SMILES)、图结构(分子图)和几何特征(3D坐标)三类深度学习输入。
模型对比包括五种机器学习基线(随机森林RF、XGBoost等)与四种深度学习架构:基于图对比学习的DGCL、多模态Transformer架构TransFoxMol、长程依赖捕获模型MolPath及几何感知模型MolFormer。训练采用三组随机种子划分数据集(80%训练/10%验证/10%测试),以F1分数为核心指标优化超参数。多任务学习框架通过共享表征增强数据稀疏端点(如TOX21_ERa_LUC_VM7_Agonist)的稳定性。外部验证使用ECVAM ReProTect计划的91种参考化学品,并通过适用域分析(基于MACCS指纹相似度)评估可靠性。
结果与讨论
深度学习模型显著优于机器学习基线,DGCL在多数端点表现最优(F1分数范围0.32–0.61),尤其在细胞外基质相关测定(如BSK_CASM3C_uPAR)中提升达0.23。多任务学习虽未显著提高平均性能,但增强了小样本端点的鲁棒性。外部验证显示模型具有保守预测特性:精确度(0.93)和特异性(0.81)较高,但召回率(0.57)提示对部分阳性化学品灵敏度有限。
模型优势在于通过图神经网络捕获分子拓扑特征与机制关联性,例如DGCL利用GIN与GAT编码器的对比学习优化嵌入表示。局限性包括数据集覆盖度不足和代谢信息缺失,未来可整合类不平衡优化策略与AOP框架提升可解释性。
结论
该研究证实多任务深度学习能有效整合机制化生物测定数据,为DART的非动物预测提供高可靠性工具,支持NGRA框架下的化学物质优先筛选。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号