
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于ToxCast生物测定数据的机制毒性机器学习模型系统开发及其在下一代风险评估(NGRA)中的应用
【字体: 大 中 小 】 时间:2025年07月26日 来源:Computational Toxicology 3.1
编辑推荐:
本研究针对传统毒性评估依赖动物实验、数据泛化性不足等问题,通过系统整合ToxCast数据库1,485项生物测定数据,结合分子指纹(MACCS/Morgan等)与机器学习算法(XGBoost/随机森林等),构建24,500个预测模型,筛选出311个与急性毒性、内分泌干扰等监管终点强相关的高效模型(F1≥0.5),为AI驱动的新评估方法(NAMs)在下一代风险评估(NGRA)中的标准化应用奠定基础。
在毒理学领域,如何减少动物实验同时提升风险评估准确性,一直是科学家与监管机构面临的重大挑战。传统方法耗时耗力,而新兴的高通量筛选(HTS)技术虽能快速生成海量数据,却面临化学空间覆盖不足、机制解释模糊等瓶颈。尤其美国环保署的ToxCast数据库,虽包含数千种化合物的生物活性数据,但其与监管终点的关联性始终未能系统验证,严重制约了其在风险评估中的实际应用。
韩国环境产业技术研究院(Korea Environmental Industry & Technology Institute, KEITI)的研究团队在《Computational Toxicology》发表的最新研究,通过多维度技术融合破解了这一难题。研究人员首先整合ToxCast数据库v4.1版本的1,485项生物测定数据,利用五种分子指纹(MACCS、Morgan、RDKit等)进行特征提取,结合逻辑回归、XGBoost等五种算法构建预测模型。通过NTP ICE数据库的机制注释,将生物测定精准映射至急性毒性、致癌性等监管终点,最终筛选出311个高性能模型,为AI驱动的下一代风险评估(NGRA)提供了标准化工具。
关键技术方法
研究采用三阶段技术路线:1) 数据预处理阶段清洗1,485项ToxCast生物测定数据,标准化活性化合物标注;2) 建模阶段组合5类分子指纹与5种算法,构建24,500个模型并按F1分数优选;3) 机制验证阶段通过NTP ICE数据库注释,筛选与监管终点强相关的311个模型(F1≥0.5)。
研究结果
Workflow
通过系统化流程设计(图1),实现从数据清洗、模型训练到机制验证的全链条优化。Tox21项目数据占比最高(276项),活性化合物比例呈现显著来源依赖性(NVS达33%)。
Collection and preprocessing of ToxCast bioassay data
数据预处理揭示各数据源的活性化合物分布差异:Tox21活性率8%,NVS达33%,提示数据异质性需通过特征工程消除。
Conclusion
最终模型覆盖发育毒性、内分泌干扰等关键终点,其中基于Morgan指纹的XGBoost模型在核受体相关测定中表现突出(平均F1=0.68)。
讨论与意义
该研究首次实现ToxCast数据与监管终点的系统性对接,其创新性体现在三方面:一是建立分子指纹-算法组合的性能基准,证实Morgan指纹与树模型(如XGBoost)的适配性最优;二是通过NTP ICE的专家注释破解机制黑箱问题,使83%的优选模型具有明确的AOP(Adverse Outcome Pathway)解释;三是提出"性能-机制"双筛选标准,为监管机构采纳AI模型提供决策框架。研究成果已应用于韩国环境部的化学品安全管理系统,推动从经验驱动到数据驱动的风险评估范式转变。
生物通微信公众号
知名企业招聘