
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于专家混合多任务学习的化合物心脏毒性评估新策略
【字体: 大 中 小 】 时间:2025年08月30日 来源:Journal of Cheminformatics 5.7
编辑推荐:
本研究针对心血管疾病风险化合物评估的复杂性,创新性地采用专家混合(MoE)架构的多任务神经网络(MTNN),整合12种心脏毒性相关终点数据(包括hERG抑制、AhR激活等AOP网络关键事件),通过CDDD和分子描述符双分支协同学习,实现78%的平衡准确率。该模型首次实现单模型覆盖分子起始事件(MIE)到不良结局(AO)的全通路预测,为NGRA框架下的化学物质优先排序提供了高效计算工具。
心血管疾病长期占据全球死因首位,而环境污染物、药物等外源化学物质的潜在心脏毒性贡献常被忽视。传统动物实验耗时耗力,单任务QSAR模型又难以覆盖从分子起始事件到器官损伤的复杂毒性通路。Edoardo Luca Vigano团队在《Journal of Cheminformatics》发表的这项研究,开创性地将人工智能与毒理学机制深度融合,为这一困境提供了创新解决方案。
研究团队采用三大关键技术:1) 整合ChEMBL、NIH ICE和FDA报告的14,688种化合物数据,构建覆盖AOP网络12个终点的标准化数据集;2) 创新设计双分支MoE架构,通过门控机制动态整合CDDD描述符与分子描述符特征;3) 引入基于不确定性的多任务损失函数,平衡不同终点数据差异。
材料与方法
通过严格的数据清洗流程(包括SMILES标准化、无机物过滤等),建立包含hERG抑制、线粒体复合物抑制等MIE,以及氧化应激等KE的异构数据集。采用5种分子编码(Morgan指纹、ChemBERTa等)进行基线模型比较,最终选择CDDD与分子描述符构建MoE模型。
结果
基线模型性能:hERG抑制预测最佳(平衡准确率80%),但多数模型受数据不平衡影响严重。例如线粒体功能障碍模型灵敏度仅0.52,反映23%活性样本的固有偏差。
MoE模型突破:双分支架构显著提升泛化能力,平均平衡准确率达78%(MCC=0.54),敏感性与特异性差异从基线0.46降至0.17。如图4所示,该模型在hERG抑制(灵敏度0.84)和内皮损伤(灵敏度0.85)等关键终点均超越文献报道水平。
机制解释性:门控分析揭示hERG预测主要依赖Morgan分支(权重87±5%),而内皮损伤更依赖CDDD分支(38±9%),证实不同毒性终点的化学特征依赖性差异。
真实场景验证:在Krishna等报道的41种已知心脏毒素外部测试中,模型对药物类和环境类化合物灵敏度分别达89%和100%,展现优异预警能力。
结论与意义
该研究首次实现单模型覆盖心脏毒性AOP全通路预测,其MoE架构通过:1) 整合多层次毒性数据拓宽应用域;2) 门控机制自动识别最优特征组合;3) 多任务协同提升小样本终点性能。相比传统单任务模型堆叠方案,计算效率提升显著,为NGRA框架下的化学物质优先排序提供了可靠的一线筛选工具。未来通过纳入钙循环等新通路,可进一步扩展模型机制覆盖范围。
研究建立的预测平台已开源(GitHub/VEGA),其成功实践为多模态数据融合在复杂毒性预测中的应用树立了新范式。
生物通微信公众号
知名企业招聘