
-
生物通官微
陪你抓住生命科技
跳动的脉搏
CBERTaXGB:基于Transformer-XGBoost混合模型的化学毒性与易燃性智能预测系统开发及其在NFPA 704标准中的应用
【字体: 大 中 小 】 时间:2025年07月22日 来源:Process Safety and Environmental Protection 6.9
编辑推荐:
为解决传统化学毒性和易燃性实验方法(如OECD 423和ASTM E681)效率低下的问题,研究人员开发了CBERTaXGB混合模型,整合ChemBERTa分子特征提取与XGBoost分类架构,在NFPA 704标准下实现毒性和易燃性的高精度预测(PR-AUC达0.994-0.996),为化学品生命周期安全管理提供可解释的AI解决方案。
在化学品安全管理领域,准确预测物质的毒性和易燃性一直是保障生产、储存和运输安全的核心挑战。传统的实验方法如OECD 423(啮齿类动物LD50测试)和ASTM E681(闪点与自燃温度测定)虽然权威,但面对NFPA危险化学品清单中15万余种物质时,暴露出效率低下、成本高昂的弊端。尤其随着新型化合物的不断涌现,这种基于实验的评估模式更显得捉襟见肘。
针对这一难题,中国国家重点研发计划支持下的研究团队在《Process Safety and Environmental Protection》发表了突破性成果。研究人员创新性地将Transformer架构的分子特征提取能力(ChemBERTa)与XGBoost的优化决策树相结合,开发出CBERTaXGB混合模型。该模型在ZINC15数据库110万未标记SMILES序列预训练基础上,通过t-SNE降维和注意力权重可视化等技术,实现了对有机危险化学品的高精度分类。
关键技术方法包括:1)基于SMILES的分子表征与ChemBERTa特征提取;2)XGBoost多任务分类架构优化;3)t-SNE空间分布分析验证分子簇集规律;4)应用领域适应性评估确保模型泛化能力。研究数据集涵盖NFPA标准下的毒性(五级分类)和易燃性(四级分类)标注样本。
研究结果显示:
数据分布:t-SNE可视化揭示毒性活性化合物在D1轴中央区域显著聚集,反映共同作用机制;而易燃性化合物分布更分散,暗示其多途径反应特性。
模型性能:CBERTaXGB在双任务预测中表现卓越,毒性分类PR-AUC达0.994(AU-ROC 0.971),易燃性分类PR-AUC达0.996(AU-ROC 0.923),F1-score分别达到0.972和0.996。
分子机制解释:注意力权重分析识别出芳香稳定模式、亲电官能团和酯键构型等关键特征,与已知化学机理高度吻合。
结论部分强调,该研究首次将冻结参数的ChemBERTa嵌入与XGBoost直接耦合,相比现有混合架构(如MolPROP和DMP框架)具有三大优势:1)专为NFPA 704监管端点优化;2)在数据稀缺时保持稳健性;3)通过可解释性分析满足合规要求。实际应用中,模型成功预测1319种环境关注化学品的危害特性,为优先管控提供科学依据。
这项研究不仅建立了化学品智能风险评估的新范式,其创新的"预训练-冻结-解释"技术路线,更为解决AI模型在监管场景中的可信度难题提供了范本。未来,该方法有望扩展至GHS分类等全球化学品管理体系,推动人工智能在环境健康与安全领域的深度应用。
生物通微信公众号
知名企业招聘