专家驱动式交叉参照案例库构建及其相似性贡献度分析在毒性预测中的应用

【字体: 时间:2025年07月17日 来源:Computational Toxicology 3.1

编辑推荐:

  本研究针对交叉参照(Read-across)技术中专家评估主观性强、可重复性差的问题,系统收集157例重复剂量毒性评估案例,通过量化结构/理化/代谢/反应性等多维相似性特征,开发预测模型解析不同相似性维度对类比物选择的贡献度。研究发现结构与代谢相似性最具影响力,并进一步采用图神经网络探索其嵌入表示对预测性能的提升,为数据驱动式交叉参照(GenRA)提供新思路。

  

在化学品安全评估领域,交叉参照(Read-across)作为填补数据缺口的关键技术已沿用数十年。这项技术通过类比相似物质的数据来预测目标化学品的毒性,但其核心环节——类比物选择长期依赖专家经验判断,导致评估结果可重复性差、不同机构接受标准不一。尽管经济合作与发展组织(OECD)发布了技术指南,但缺乏具体案例示范如何构建具有说服力的科学论证。更棘手的是,欧盟化学品管理局(ECHA)的交叉参照评估框架(RAAF)仅通过否决案例间接提供指导,成功案例的具体论证细节始终如"黑箱"般难以捉摸。

美国环境保护署(EPA)的Grace Patlewicz团队意识到,破解这一困境需要系统解析专家选择类比物的内在逻辑。研究人员从OECD、EPA临时同行评审毒性值(PPRTV)等渠道筛选157个重复剂量毒性评估案例,涵盖695种独特物质。研究创新性地建立多维度相似性量化体系:采用分子指纹计算结构相似性,通过代谢通路比对评估代谢相似性,并整合了理化参数和反应活性特征。通过机器学习模型解析发现,在专家决策过程中,结构相似性(平均贡献度42%)与代谢相似性(31%)的权重显著高于其他特征。

基于这一发现,团队进一步探索了图神经网络(GNN)在提升交叉参照预测性能中的应用。通过将分子结构转化为图数据,并整合代谢通路信息生成的嵌入表示(embeddings),相较传统结构相似性基线方法,新方法在重复剂量毒性预测中展现出更优的预测稳定性。值得注意的是,研究也揭示了当前交叉参照实践的局限性:案例库存在来源异质性大、选择标准不统一等问题,这提示需要建立更标准化的案例报告规范。

关键技术方法包括:1) 通过Python网络爬虫从EPA PPRTV等数据库筛选案例;2) 采用RDKit计算MACCS指纹和Morgan指纹评估结构相似性;3) 使用Meteor Nexus软件预测代谢路径;4) 开发随机森林模型量化各相似性维度贡献度;5) 基于DeepChem框架构建图神经网络模型。

【Identification of read-across examples】

通过系统检索三大数据库获得157个案例,其中68%来自监管用途。案例覆盖24种决策场景,归并为新方法评估(NAMs)、技术指南等4大类,反映出交叉参照应用的多样性。

【Dataset summary】

分析显示结构相似性并非专家选择的唯一标准,38%案例中专家最终选定的类比物并非结构最相似选项,这与代谢数据可获得性密切相关。通过开发预测模型,首次量化得出结构(42%)、代谢(31%)、理化(19%)和反应性(8%)的贡献度权重。

【Deep learning applications】

图神经网络实验表明,结合代谢信息的分子嵌入在预测NOAEL(未观察到不良反应水平)时,均方根误差(RMSE)比传统方法降低22%,证实多维特征融合能提升预测准确性。

这项研究首次通过大规模案例反推专家决策模式,为数据驱动的通用交叉参照(GenRA)框架提供了关键参数。其重要意义在于:1) 验证了代谢信息在交叉参照中的核心地位,解释了为何某些结构差异较大的类比物仍被专家采纳;2) 开发的量化模型可作为专家系统的补充验证工具;3) 图神经网络的应用展示了人工智能在化学风险评估中的转化潜力。尽管受限于样本量和案例异质性,该研究仍为OECD即将发布的第三版指南提供了实证依据,特别是对如何整合高通量数据(high throughput data)和表征不确定性具有重要参考价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号