
-
生物通官微
陪你抓住生命科技
跳动的脉搏
专利、文献与制药业中有机化学知识图谱的网络分析比较研究
【字体: 大 中 小 】 时间:2025年08月04日 来源:Molecular Informatics 3.1
编辑推荐:
这篇综述通过构建AstraZeneca电子实验记录本(ELN)、美国专利商标局(USPTO)和Reaxys化学反应数据库的知识图谱,首次系统比较了三者在网络连通性、无标度特性(scale-free property)和层级结构(hierarchy)等方面的差异。研究发现Reaxys图谱具有最高的γ值(5.19)和核心节点比例(6.94%),USPTO则呈现最低的边节点比(1.18),而ELN图谱展现出独特的药物研发中间体特征。该研究为合成预测模型的数据选择提供了重要理论依据。
知识图谱构建与数据来源
研究团队采用统一的提取-转换-加载(ETL)流程处理三个数据源:来自制药企业AstraZeneca的电子实验记录本(ELN)、美国专利商标局(USPTO)专利反应数据以及Reaxys商业数据库。特别值得注意的是,ELN数据限定为产率≥5%的反应记录,而USPTO数据经过NameRXN算法重新进行原子映射。通过构建包含分子节点和反应节点的二分图(bipartite graph),以及仅含分子或反应节点的单分图(monopartite graph),研究实现了网络结构的系统比较。
网络拓扑特性分析
在边节点比指标上,Reaxys以1.486显著高于ELN(1.304)和USPTO(1.184),表明其网络连接最为密集。无标度特性分析显示,所有图谱的出度(out-degree)分布均符合幂律分布(power law),γ值稳定在2.10-2.12之间;而入度(in-degree)分布则呈现显著差异,Reaxys的γ值最低(5.19),USPTO最高(8.16)。通过似然比检验进一步证实,这些分布更符合幂律分布而非指数分布或对数正态分布。
层级结构与功能分区
研究采用平均总度
数据溯源对网络特征的影响
研究指出,USPTO数据的专利来源特性导致其网络稀疏性,反应类型重复度高;ELN反映了药物研发的实际需求,其枢纽分子包含更多药用中间体(如图3中的胺化砌块);Reaxys则因涵盖无机反应等非药物相关化学空间,展现出更均衡的连通性。特别值得注意的是,ELN和USPTO枢纽分子的定量药物相似性(QED)评分平均比Reaxys低0.15-0.22,这与药物研发中常用简单砌块的实践相符。
对机器学习模型的启示
研究强调,USPTO数据虽能部分反映药物化学特征,但其有限的反应多样性可能影响模型泛化能力;而Reaxys数据的广泛覆盖又需注意过滤非药物相关反应。作者特别指出,知识图谱能否提供超越单反应实验的预测价值仍是开放性问题,这为未来合成预测算法的发展提供了重要研究方向。
方法论创新与局限
该研究首次将超图(hypergraph)分析方法应用于工业ELN数据,开发了基于graph-tool工具包的并行化分析流程。但研究也承认,当前方法对保护基反应等常见转化的分类仍依赖启发式规则,未来需要开发更精确的反应类型过滤算法。分子复杂性分析中,碳杂化率(Fsp3)等指标在不同数据源间的可比性仍需进一步验证。
生物通微信公众号
知名企业招聘