
-
生物通官微
陪你抓住生命科技
跳动的脉搏
迁移学习与多任务学习的结合,用于预测全氟/多氟烷基物质激活与肝脂毒性相关的多种核受体的潜力
《Environmental Science & Technology》:Integration of Transfer Learning and Multitask Learning To Predict the Potential of Per/Polyfluoroalkyl Substances in Activating Multiple Nuclear Receptors Associated with Hepatic Lipotoxicity
【字体: 大 中 小 】 时间:2025年11月03日 来源:Environmental Science & Technology 11.3
编辑推荐:
PFAS通过激活核受体诱导肝脂毒性,本研究构建了基于三个数据集的机器学习模型,发现宽泛数据集模型识别能力弱,而严格数据集模型性能最佳但区分度不足。通过TL-MT-DNN迁移学习模型将知识迁移至严格数据集,平均AUC达0.886,F1值0.665,并成功预测391种PFAS同时激活五类核受体。经体外细胞实验和体内动物实验验证,该模型有效克服数据分布偏移问题,为PFAS风险评估提供新方法。

多氟烷基物质(PFAS)可通过激活核受体(NRs)诱导肝脏脂毒性。在此研究中,我们首先利用三种常用的数据集,开发了机器学习模型来预测PFAS对与肝脏脂毒性相关的五种核受体的作用机制:一个通用化学数据集(A数据集,包含6388–10199种化合物)、一个基于OECD定义的广泛PFAS数据集(B数据集,包含369–772种化合物),以及一个严格定义的PFAS数据集(C数据集,包含184–198种化合物)。出乎意料的是,基于广泛化学数据集(A和B数据集)训练的模型在识别活性PFAS方面表现较弱,这可能是由于数据分布的变化所致。而基于C数据集训练的模型虽然识别能力较强,但区分度仍低于A数据集训练的模型。为此,我们采用了一种迁移学习多任务深度神经网络(TL-MT-DNN)技术,将A数据集中的知识迁移到C数据集中,显著提升了预测性能,平均AUC达到0.886,F1值达到0.665。将该模型应用于PFASSTRUCTv5数据库中的3716种PFAS时,预测有391种化合物能够激活全部五种核受体。模型的预测可靠性通过体外细胞实验和体内动物实验得到了验证。本研究提出了一种改进PFAS活性预测的建模策略,有效克服了基于广泛化学数据集训练的模型所存在的分布偏差问题,并展示了其在风险筛查中的实际应用潜力。