图相似性度量助力类推法中类似物识别的研究

【字体: 时间:2025年05月09日 来源:Computational Toxicology 3.1

编辑推荐:

  为解决物质毒性数据缺失问题,研究人员开展基于图相似性度量用于类推法(read - across)中类似物识别的研究。利用多种毒性数据集对比多种方法,结果显示图核方法有前景,图卷积网络对基因毒性数据集有效。该研究为类推法提供新途径。

  在当今的化学物质研究领域,众多化学物质在商业中广泛应用,然而,进行全面的毒理学评估却面临诸多难题。以美国有毒物质控制法案(TSCA)涵盖的约 42,000 种物质为例,仅有一小部分接受了充分的毒理学评估。据美国环保署(EPA)报告,美国商业中的物质仅有 15% 接受过用于表征人类健康的标准毒性测试。若对每种化学物质都进行评估,在成本、动物福利和资源方面都将面临巨大挑战。
在此背景下,体外(in vitro)和计算机模拟(in silico)方法成为解决这一困境的重要途径。其中,计算机模拟方法中的定量结构 - 活性关系((Q) SAR)和类推法(read - across),通过将化学结构与(生态)毒理学或物理性质相关联,发挥着关键作用。类推法旨在利用具有已知数据的 “源类似物”,对数据有限的 “目标” 物质的相同性质进行预测,在欧盟的化学品注册、评估和授权(REACH)法规中被广泛应用。

然而,类推法目前存在一些问题。在确定源类似物时,虽然结构相似性是常用方法,但其他相似性因素,如物理化学性质、代谢、化学反应性、生物活性和毒理学特征等,对源类似物的相关性和适用性也至关重要。目前,这些相似性评估大多依赖专家判断和经验数据,具有主观性,在可重复性、可扩展性和监管认可方面存在挑战。

为了改善这种状况,研究人员开展了一项关于图相似性度量在类推法中类似物识别应用的研究。研究人员使用了 5 种不同规模和多样性的毒性数据集,这些数据集此前已进行过类推法或 QSAR 分析。研究涉及多种图相似性方法,包括图核(graph kernel)、图嵌入(graph embedding)和深度学习(DL)方法,并与传统的化学指纹方法(ToxPrints 和 Morgan 指纹)进行对比。研究发表在《Computational Toxicology》上。

研究过程中,研究人员运用了多种技术方法。在数据处理方面,使用 Python 3.10 和 Jupyter notebooks 进行分析;利用 RDKit 生成 Morgan 化学指纹,通过 EPA Cheminformatics Modules 获取 ToxPrints。构建分子图表示时,借助 RDKit Python 包;使用开源 Python 包 GraKeL 实现 Weisfeiler - Lehman(WL)子树图核;借助 KarateClub 创建 Graph2Vec 嵌入;利用 Gensim 训练 Word2Vec。

在具体的研究结果方面:

  • 局部淋巴结检测(LLNA)数据集:该数据集包含 222 种物质及其皮肤致敏结果和反应化学领域信息。通过研究不同图相似性方法在该数据集上的应用,探索其对类似物识别的效果。
  • 其他数据集:另外 4 个数据集分别涉及物质的皮肤刺激性、黑头呆鱼水生毒性和基因毒性潜力评估。研究人员对这些数据集逐一进行分析,评估图相似性方法在不同毒性终点评估中的表现。

研究结论表明,图核方法在类推法的类似物识别中展现出一定的潜力。例如,WL 子树图核能够通过迭代更新原子标签,捕捉分子内更详细的子结构,以此衡量图的相似性,为类似物识别提供有价值的信息。而无监督的全图嵌入方法在所有评估的数据集中效果不佳。不过,图卷积网络(GCNs)在基因毒性数据集评估中能够生成有意义的嵌入,通过卷积层聚合节点邻域信息,经 “池化” 层生成全图嵌入,为后续的机器学习模型提供有效输入,在特定数据集的类似物识别和毒性预测方面发挥了积极作用。

此项研究意义重大。它为类推法中类似物的识别和评估提供了新的思路和方法。图相似性度量方法的应用,尤其是图核和图卷积网络在特定情况下的有效性,有助于提高类推法预测的准确性和可靠性,减少对专家主观判断的依赖,增强其在监管领域的可接受性。这不仅能够推动化学物质毒性评估的发展,还有助于在保障人类健康和环境安全的前提下,更高效地进行化学物质的管理和应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号