基于多任务深度学习的发育与生殖毒性机制预测模型：整合ToxCast生物测定与人工智能方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Toxicology》：Multi-task deep learning models for mechanism-based prediction of developmental and reproductive toxicity (DART) using ToxCast bioassays

【字体：大中小】 时间：2026年02月05日 来源：Frontiers in Toxicology 4.6

编辑推荐：

　　本文提出一种机制导向的多任务深度学习框架，利用23个与发育和生殖毒性（DART）关键通路相关的ToxCast生物测定数据，通过对比四种前沿深度学习架构（DGCL、TransFoxMol、MolPath、MolFormer），证明DGCL模型在F1分数（0.68）和外部验证（ECVAM ReProTect数据集）中显著优于传统机器学习方法，为替代动物实验提供了可解释的NAMs新策略。

引言

发育与生殖毒性（DART）评估长期依赖动物实验，存在成本高、周期长和物种差异等局限。为推进新方法学（NAMs）的应用，本研究基于23个机制关联的ToxCast生物测定数据，构建多任务深度学习模型，旨在突破传统机器学习在数据不平衡和跨通路整合中的性能瓶颈。

方法

研究设计涵盖数据收集、模型开发与外部验证三阶段。从ToxCast数据库筛选的23个DART相关生物测定涉及类固醇激素通路（如雌激素受体ERα）、细胞外基质组织和血管生成等关键机制。数据预处理采用SMOTE技术平衡类别分布，分子表征涵盖序列型（SMILES）、图结构（分子图）和几何特征（3D坐标）三类深度学习输入。

模型对比包括五种机器学习基线（随机森林RF、XGBoost等）与四种深度学习架构：基于图对比学习的DGCL、多模态Transformer架构TransFoxMol、长程依赖捕获模型MolPath及几何感知模型MolFormer。训练采用三组随机种子划分数据集（80%训练/10%验证/10%测试），以F1分数为核心指标优化超参数。多任务学习框架通过共享表征增强数据稀疏端点（如TOX21_ERa_LUC_VM7_Agonist）的稳定性。外部验证使用ECVAM ReProTect计划的91种参考化学品，并通过适用域分析（基于MACCS指纹相似度）评估可靠性。

结果与讨论

深度学习模型显著优于机器学习基线，DGCL在多数端点表现最优（F1分数范围0.32–0.61），尤其在细胞外基质相关测定（如BSK_CASM3C_uPAR）中提升达0.23。多任务学习虽未显著提高平均性能，但增强了小样本端点的鲁棒性。外部验证显示模型具有保守预测特性：精确度（0.93）和特异性（0.81）较高，但召回率（0.57）提示对部分阳性化学品灵敏度有限。

模型优势在于通过图神经网络捕获分子拓扑特征与机制关联性，例如DGCL利用GIN与GAT编码器的对比学习优化嵌入表示。局限性包括数据集覆盖度不足和代谢信息缺失，未来可整合类不平衡优化策略与AOP框架提升可解释性。

结论

该研究证实多任务深度学习能有效整合机制化生物测定数据，为DART的非动物预测提供高可靠性工具，支持NGRA框架下的化学物质优先筛选。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号