编辑推荐:
为解决新化学品安全数据不足导致 H - 声明分类难题,研究人员开展基于机器学习的 CLP 法规 H - 声明预测研究。利用 REACH 数据,结合 N-grams、分子指纹和共形预测(CP),发现共识模型兼具高有效性与效率,为化学 hazard assessment、read-across 和风险管理提供新工具。
在化学工业蓬勃发展的当下,化学品的广泛使用在带来便利的同时,也给人类健康和环境安全埋下隐患。如何快速、准确地评估化学品的潜在危害,避免因分类不当导致的风险,成为全球关注的焦点。传统的化学品危害评估依赖大量动物实验,不仅耗时耗力,还面临伦理争议。而对于新兴化学品,往往缺乏足够的实验数据支持其危害分类,这使得基于数据驱动的计算模型成为解决这一难题的关键。在此背景下,来自国外研究机构的科研人员针对欧盟《化学品分类、标签和包装法规》(CLP)中的 H - 声明预测展开研究,相关成果发表在《Current Research in Toxicology》上,为化学品安全评估领域带来了新的思路和方法。
研究人员主要采用了以下关键技术方法:从欧洲化学品管理局(ECHA)的 REACH 注册档案中提取数据,利用 Python 的 Beautiful Soup 库解析网页获取化学信息和 H - 声明标签;通过 RdKit 等工具对 SMILES 字符串进行标准化处理;运用 N-grams、核心取代基指纹、摩根指纹(Morgan fingerprints)等多种分子指纹技术对化学结构进行特征提取;以随机森林分类器(RandomForestClassifier)作为基础模型,并嵌入共形预测(CP)框架,通过 10 折交叉验证(KFold)和校准集划分,实现对模型预测不确定性的量化评估;同时采用基于类的多数投票和中位数 p 值的共识建模方法提升预测性能。
计算效率与模型性能
研究表明,各类指纹和 N-grams 的生成速度极快,仅需几分钟甚至更短时间即可完成对目标数据集的处理。在模型性能方面,多数方法在效率表现上可圈可点。当显著性水平设为 0.2(即允许 20% 的误差)时,大部分模型的效率接近或超过 80%,这意味着模型能够以较高比例输出仅包含单一类别标签的预测结果,为化学品 H - 声明的分类决策提供了可靠依据。从有效性来看,不同描述符和共识建模方法在多个显著性水平下(如 0.1、0.15、0.2、0.25、0.3),均能为绝大多数 CLP 类别构建有效的模型。进一步分析发现,当要求模型对两类的效率至少达到 80% 时,基于类的多数投票共识模型在满足该标准方面表现更为出色,而单一描述符集模型在此条件下难以达标。降低效率标准至 75% 虽能提升单一描述符模型的可接受数量,但 N-grams 凭借其能处理 SMILES 字符串中所有符号(包括与金属和盐相关的符号)的优势,在处理各类化合物时更具普适性,有助于保留可能影响化合物毒性的关键结构信息。
个体模型表现
在个体模型性能分析中,为使效率达到至少 75% 或 80%,多数数据集需要将 CP 显著性水平设为 0.2,部分个体模型甚至需设为 0.15。在此条件下,所有模型的平衡准确率(BA)接近 80%。研究还发现,部分模型在平衡准确率略有下降时,效率可提升至 80% 以上。值得注意的是,共识模型在有效性、效率和平衡准确率方面均展现出更优性能,最终表现最佳的个体模型均基于某种共识模型。这一结果表明,结合不同描述符集和建模方法的共识策略能够有效整合信息,提升预测的可靠性和稳定性。
结论与意义
本研究验证了 N-grams 和其他分子指纹特征化方法在 CLP 分类预测中的实用性,尤其是在集成(共识)设置下,通过选择多组 N-grams 和 / 或指纹构建的共识模型优势显著。基于类或 CP 中位数 p 值的共识建模不仅能实现高共形预测有效性和效率,还能保证良好的平衡准确率、灵敏度和特异性。N-grams 对 SMILES 字符串中所有符号的处理能力,使其在涉及金属和盐类化合物的毒性预测中更具优势,有助于保留实验验证的毒性相关结构信息。相较于以往结合机器学习和共形预测技术预测化学毒性的研究,本研究模型在共形预测有效性和效率方面表现突出,尤其是基于类的共识模型。这些模型为快速获取化学品危害分类 H - 声明提供了高效工具,可广泛应用于化学危害评估、跨读(read-across)和风险管理等领域,有助于减少动物实验的使用,提升化学品安全评估的效率和准确性,为全球化学品安全管理提供了重要的技术支持和实践指导。