基于知识迁移的多任务体内毒性预测新方法:化学知识与体外毒性信息的整合增强策略
《Journal of Cheminformatics》:Enhancing multi-task in vivo toxicity prediction via integrated knowledge transfer of chemical knowledge and in vitro toxicity information
【字体:
大
中
小
】
时间:2025年11月14日
来源:Journal of Cheminformatics 5.7
编辑推荐:
本研究针对药物早期开发中体内毒性评估成本高、周期长且数据稀缺的挑战,提出了一种名为MT-Tox的知识迁移多任务学习模型。该研究通过分阶段整合化学结构预训练(ChEMBL)、体外毒性辅助训练(Tox21)和体内毒性微调,利用图神经网络(GNN)和交叉注意力机制,显著提升了致癌性、药物性肝损伤(DILI)和遗传毒性等体内毒性终点预测性能。模型在独立测试集和DrugBank筛选中表现出优越的泛化能力和可解释性,为药物发现早期毒性筛查提供了可靠的计算工具。
在药物研发的漫长征程中,毒性问题一直是导致候选药物折戟沉沙的主要原因之一。传统的体内毒性评估严重依赖动物实验,不仅成本高昂、耗时漫长,还面临诸多伦理争议。随着计算化学和人工智能技术的飞速发展,机器学习(ML)和深度学习(DL)方法为毒性预测提供了新的可能。然而,高质量的体内毒性数据稀缺往往限制了模型的泛化能力,成为该领域发展的瓶颈。
为了突破这一困境,Park等人在《Journal of Cheminformatics》上发表了他们的最新研究成果。他们认识到,在数据有限的情况下,简单应用迁移学习(TL)或多任务学习(MTL)策略存在明显不足:结构预训练模型与毒性预测任务之间存在目标差距,而直接将不同生物水平(如体外和体内)的数据进行多任务学习又可能导致负迁移。因此,研究团队设计了一种创新的知识迁移框架,模拟了药物开发中从化学结构到体外毒性再到体内毒性的逻辑流程。
研究人员开发了MT-Tox模型,这是一个基于图神经网络(GNN)的三阶段学习框架。该模型首先在大型化合物数据库ChEMBL上进行通用化学知识预训练,使模型掌握分子结构的基本特征;接着在Tox21数据集的12个体外毒性终点上进行辅助训练,获取毒性相关的生物学背景;最后通过交叉注意力机制,将学习到的体外毒性信息选择性地整合到三种体内毒性(致癌性、DILI和遗传毒性)的预测中。这种分层知识迁移策略有效解决了数据稀缺问题,并提高了预测准确性。
关键技术方法方面,研究采用图神经网络(GNN)作为基础架构,包含定向消息传递神经网络(D-MPNN)、全局多头注意力池化(GMHAP)和多层感知器(MLP)。模型分三阶段训练:化学知识预训练使用ChEMBL数据库(约157万化合物);体外毒性辅助训练使用Tox21数据集(12个终点,8029化合物);体内毒性微调使用收集的三种体内毒性数据(2618化合物)。通过交叉注意力机制实现体外到体内毒性信息的迁移,采用五折嵌套交叉验证和骨架分割评估性能。
MT-Tox在内部测试集和外部独立测试集上均表现出色。在骨架分割测试中,MT-Tox在九项评估指标中的五项上取得最佳性能,总分排名第一。与传统的迁移学习模型(如GraphMVP和ChemBERTa-2)和多任务学习基线模型(如MTDNN-FP和MGA)相比,MT-Tox展现了更均衡且稳健的预测能力。特别是在数据量最小的遗传毒性任务中,MT-Tox的AUC值达到0.707,显著优于多数基线模型。在外部测试集上,MT-Tox也表现出良好的泛化能力,进一步验证了其在实际应用中的可靠性。
通过消融实验,研究人员评估了MT-Tox中各个知识迁移组分的贡献。结果显示,完整模型在所有任务上的表现均优于去除化学知识预训练(W/o ChEMBL P.T.)或去除体外毒理学辅助训练(W/o Tox21 A.T.)的变体。特别值得注意的是,通用化学知识预训练显著提高了遗传毒性预测的稳定性,而对DILI预测的贡献相对有限,这可能与DILI的复杂机制(更多涉及代谢和免疫过程)有关。嵌入空间分析表明,引入Tox21信息后,不同毒性任务的化合物嵌入呈现更清晰的分离,证明体外毒性信息有助于模型区分不同类型的体内毒性。
MT-Tox中的两种注意力机制(GMHAP和交叉注意力)为预测结果提供了双重可解释性。GMHAP模块显示,经过化学知识预训练的模型能够更聚焦于与毒性相关的功能基团。例如,在致癌性预测中,模型注意力集中在偶氮苯和亚硝基等已知致癌结构警报上。交叉注意力机制则揭示了不同体内毒性任务如何选择性利用Tox21测定信息:致癌性关注核受体AR-LBD,DILI关注芳香烃受体(AhR)和线粒体膜电位(SR-MMP),遗传毒性关注p53通路。这些模式与已知的毒理学机制一致,增强了模型预测的生物学合理性。
为验证MT-Tox的实际应用价值,研究人员对DrugBank数据库中的化合物进行了大规模毒性预测。结果显示,不同药物类别(营养品、已批准、研究中、撤市)的预测毒性分数与已知风险一致:营养品毒性最低,撤市药物毒性最高。研究中药物的DILI预测分数显著高于已批准药物,符合临床观察。对实验阶段化合物的筛查发现多个高毒性风险化合物,如含偶氮苯结构的拉尼莫司汀(致癌性)和含硝基苯结构的阿兰地平(DILI)。这些结果证明MT-Tox能够识别与毒性相关的结构特征,具备早期药物筛检的应用潜力。
该研究通过创新的知识迁移策略,成功解决了体内毒性预测中的数据稀缺问题。MT-Tox模型不仅显著提升了预测性能,还通过注意力机制提供了化学和生物学层面的双重可解释性。研究证明,分层知识迁移策略比简单的多任务学习更能有效整合异质毒性数据,避免负迁移。尽管模型在DILI预测等方面仍有提升空间,但其在DrugBank筛查中的表现展示了实际应用潜力。未来,通过整合更丰富的体外 assay 数据和药代动力学参数,MT-Tox框架有望进一步拓展,为药物安全性评估提供更强大的计算工具。这一研究为药物早期开发中的毒性预测提供了新思路,有助于降低药物研发失败率,推动更安全、更高效的药物发现进程。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号