
-
生物通官微
陪你抓住生命科技
跳动的脉搏
化学与产品数据库CPDat v4.0:支持化学暴露评估的更新资源与FAIR数据实践
【字体: 大 中 小 】 时间:2025年06月07日 来源:Scientific Data 5.8
编辑推荐:
美国环保署(EPA)研究团队通过开发Factotum数据管理平台,对化学与产品数据库(CPDat)进行系统性升级至v4.0版本。该研究整合了消费产品成分、化学功能用途和清单存在三类数据文档,建立了产品使用分类(PUCs)、功能类别(FC)和清单存在关键词(LPK)等标准化词汇体系,实现了化学暴露相关数据的FAIR(可查找、可访问、可互操作、可重用)化管理。这项发表于《Scientific Data》的研究为环境健康风险评估提供了高质量的数据基础设施,支持了从化学品筛查到暴露建模的全流程决策。
在现代社会,人们每天接触的消费品中可能含有数千种化学物质,从洗发水中的表面活性剂到家具中的阻燃剂,这些物质的潜在健康风险引发广泛关注。然而,化学暴露评估面临巨大挑战:产品成分数据分散、术语不统一、质量参差不齐,使得研究人员难以系统评估人群的真实暴露水平。美国环保署(EPA)的科学家们发现,现有数据库存在数据孤岛现象,不同来源的化学使用信息无法有效关联,严重制约了风险评估的准确性和效率。
为解决这些问题,美国环保署计算毒理学与暴露研究中心的Sakshi Handa、Kristin K. Isaacs等跨学科团队,对化学与产品数据库(CPDat)进行了全面升级。研究团队开发了名为Factotum的创新型数据管理平台,通过标准化流程整合三类关键数据:产品成分文档(如安全数据表MSDS)、功能用途文档(描述化学物质在产品中的作用)以及清单存在文档(监管或行业化学品列表)。该研究成果以《The Chemical and Products Database v4.0》为题发表在开放获取期刊《Scientific Data》上,标志着化学暴露数据管理进入FAIR(可查找、可访问、可互操作、可重用)化新时代。
研究团队采用三项核心技术方法构建CPDat v4.0:首先开发了Factotum数据管理平台,实现从原始文档采集、文本提取到质量控制的全程追踪;其次建立了分级分类体系,包括4层产品使用分类(PUCs)和OECD标准的功能类别(FC)词汇;最后通过分布式结构可搜索毒性(DSSTox)系统进行化学标识符标准化,为每项记录分配唯一物质标识符(DTXSID)。数据来源涵盖48个消费产品制造商和30个国际监管机构的公开文档,所有处理脚本均在GitHub开源。
在数据架构方面,研究团队创新性地设计了"文档-记录"双层体系。原始数据文档被归类为成分、功能用途或清单存在三种类型,每种类型对应特定标准化词汇。产品使用分类(PUCs)系统从"种类"(如制剂、物品)到"产品类型"(如烤箱清洁剂)形成4级树状结构,显著提升了暴露场景构建的精确度。功能用途则采用经济合作与发展组织(OECD)的117个技术功能分类,并补充13个EPA特有类别,如"药物"和"脱毛剂"。
质量控制环节展现出研究的前瞻性。通过Factotum平台实施的18项标准操作规程(SOPs)确保数据溯源性,所有记录均可回溯至原始文档。自动化校验程序能识别数值范围错误(如最小浓度大于最大浓度)和术语误用。特别值得注意的是,团队采用机器学习模型对产品进行PUC预分类,同时明确标注人工验证与模型预测结果,这种透明化处理增强了数据可信度。
研究结果揭示了CPDat v4.0的广泛应用前景。在数据体量上,新版本整合了302个化学清单组、102个产品成分组和24个功能用途组。通过与美国环保署现有的计算毒理学资源(如CompTox化学品仪表盘)对接,CPDat v4.0已支持多项创新研究:包括解析非靶向分析中的未知化合物、建立定量结构使用关系(QSUR)模型,以及识别与乳腺癌相关的化学共暴露模式。特别在暴露建模工具如SHEDS-HT中,PUC分类可直接关联使用频率、暴露途径等关键参数。
讨论部分强调了该数据库的系统性价值。相比前代版本,v4.0通过Factotum平台实现了数据采集-处理-发布的标准化流水线,年更新机制确保数据时效性。采用语义版本控制(如v4.1为小更新,v5.0代表重大升级)的版本管理策略,既保持连续性又支持创新。研究团队特别指出,CPDat的FAIR特性使其能无缝对接各类暴露评估工具,如通过API接口为ExpoCast项目提供高通量筛选数据。
这项研究的意义超越技术层面,为全球化学品管理提供了范式转变。通过统一消费产品、工业材料和日常物品中的化学数据标准,CPDat v4.0首次实现了从分子结构到产品使用的全链条追踪。对于监管机构,该数据库支持《有毒物质控制法》(TSCA)要求的"使用条件"界定;对学术界,则为环境混合暴露研究提供可靠数据基础。随着ChemExpo知识库等衍生工具的开发,这一资源将持续推动暴露科学从经验判断向数据驱动决策的转型。
生物通微信公众号
知名企业招聘