
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ToxACoL:基于伴随相关学习的多条件急性毒性评估新范式突破数据稀缺端点预测瓶颈
【字体: 大 中 小 】 时间:2025年07月02日 来源:Nature Communications 14.7
编辑推荐:
本研究针对多物种急性毒性评估中存在的实验条件多样、数据不平衡及目标端点数据稀缺等挑战,开发了伴随相关学习范式ToxACoL。通过构建毒性端点图拓扑和伴随相关机制,实现了端点感知与任务聚焦的化合物表征学习。该模型在59个端点数据集上将人类相关端点的预测性能提升43%-87%,同时减少70%-80%训练数据需求,为化学分类标记和风险管理提供了创新工具。
在化学物质爆炸式增长的时代,急性毒性评估作为化学品安全评价的首要环节,直接决定物质能否进入工业应用或临床试验。然而传统动物实验面临伦理限制和物种差异等挑战,尤其对人类和珍稀物种的毒性数据极度稀缺。现有深度学习方法难以应对多实验条件、数据不平衡和稀缺目标端点等复杂情况,导致无法准确预测关键的人类毒性端点。
清华大学等机构的研究团队在《Nature Communications》发表了突破性研究。针对上述问题,Jiang Lu、Lianlian Wu等开发了ToxACoL模型,通过创新的伴随相关学习机制,首次实现了多条件毒性端点的协同建模。该研究整合了TOXRIC和PubChem数据库中59个毒性端点的122,594条测量数据,涵盖15个物种、8种给药途径和3类检测指标。
研究采用三大关键技术:1)基于Pearson相关系数构建急性毒性端点图拓扑,量化59个端点间的生物学关联;2)设计伴随相关层实现化合物表征与端点信息的双向交互学习,通过图卷积和残差网络并行处理;3)开发端点感知的回归器权重生成机制,将学习到的端点关联嵌入预测过程。
研究结果部分,"ToxACoL成功平衡多条件端点性能"显示,模型平均R2达0.5843,显著优于现有最佳算法DLCA。关键突破体现在"ToxACoL显著提升数据稀缺端点性能"中,对人类口服TDLo端点的预测性能提升56%,女性口服TDLo提升87%。

"ToxACoL展现减少训练数据潜力"部分证实,仅需20-30%训练数据即可匹配现有最佳模型性能。图4显示对21个小样本端点的平均R2达0.51时,仅需36个样本/端点。"潜在空间聚类模式"分析发现,模型自动识别出季铵盐阳离子、芳香硝基等已知结构警报,为毒性机制研究提供新线索。

在"探索动物到人类的推演模式"中,通过填充缺失毒性值发现猫静脉注射LDLo与人类口服毒性相关性最高(PCC=0.91),为跨物种毒性预测提供了重要参考。图6a的PCC热图揭示了不同物种端点与人类毒性的关联强度。
研究结论指出,ToxACoL通过创新的伴随相关学习机制,解决了多条件毒性评估中的数据稀缺和失衡难题。相比传统多任务学习(MTL)的单向信息流(补充图10),该模型的双向交互架构实现了:1)端点关联驱动的知识迁移;2)任务聚焦的化合物表征;3)基于图拓扑的参数传播。研究者已部署免费网络平台(图7),支持59个端点的急性毒性和GHS分类预测。
该研究的核心价值在于:首次将端点生物学属性编码为拓扑关系,突破了传统QSAR模型的单向预测局限;将人类毒性端点预测性能提升至实用水平;通过识别跨物种毒性关联模式,为贯彻3R
生物通微信公众号
知名企业招聘