综述:ChEMBL中的药物数据及临床候选药物数据
《Journal of Medicinal Chemistry》:Drug and Clinical Candidate Drug Data in ChEMBL
【字体:
大
中
小
】
时间:2025年10月03日
来源:Journal of Medicinal Chemistry 6.8
编辑推荐:
ChEMBL是一个开放获取、符合FAIR标准的生物活性分子数据库,包含约17,500种获批药物和临床候选药物。本文详细阐述了其数据收集、结构化处理、透明性提升及技术挑战,包括从FDA、EMA和ClinicalTrials.gov等来源提取数据,结合自动化与手动校验确保准确性,并优化分子层次结构和化学信息学处理流程,以支持药物发现和AI应用。
ChEMBL 35 是一个大型的、开放获取的、符合 FAIR(可发现、可访问、可互操作、可重用)原则的生物活性分子数据库,其核心功能是提供高质量的药物和临床候选药物数据。该数据库包含了约 17,500 种已批准的药物,以及正在通过临床开发流程的临床候选药物。药物的整理工作自 ChEMBL 创建之初就一直是其核心服务的一部分,因此药物数据在该数据库中具有极高的重要性。本文旨在为数据用户解释 ChEMBL 药物数据的整理方式,以便他们更好地理解数据的来源和结构。这些数据包括药物名称、同义词和商品名、化学结构或生物序列、数据来源、适应症、作用机制、警告信息和药物属性(如最大开发阶段、分子类型、前药状态和首次批准年份等)。ChEMBL 作为生物活性资源,其药物数据的整合特性使得其在药物发现、人工智能(AI)和机器学习等领域得到广泛应用。
ChEMBL 的药物数据具有重要的科学价值和实际应用意义。例如,这些数据可以用于大规模评估药物和配体的物理化学性质和配体效率,可以用于发现药物再利用的机会,可以用于虚拟筛选潜在的抗 SARS-CoV-2 药物候选物,可以用于寻找治疗某些被忽视的热带疾病(如血吸虫病)的潜在药物,也可以用于识别治疗心力衰竭的药物靶点。此外,这些数据还可以用于分析临床试验为何在达到终点前停止,或用于测试新兴的大型语言模型。因此,ChEMBL 的药物数据在科学界具有广泛的应用前景。
在众多开放访问的数据库中,ChEMBL 的药物数据具有独特性。例如,DrugCentral 从 2016 年开始整理已批准的药物数据,但并未整理临床候选药物数据,而 ChEMBL 则包括了这些数据。Guide to PHARMACOLOGY 主要关注配体-活性-靶点关系,但并非专注于药物或临床候选药物数据。PubChem 是一个广泛使用的开放化学数据库,但其数据并非手动整理,而是由多个不同的贡献者提供。相比之下,ChEMBL 的数据质量较高,因为其数据是通过严格的人工整理和半自动整理流程获得的。Open Targets 的药物和临床候选药物数据均来源于 ChEMBL,而 DrugBank 虽然包含了全面的药物和临床候选药物数据,但其信息并未整合到一个生物活性数据库中,且 DrugBank 仅对非商业用途免费提供。因此,ChEMBL 在药物数据的整合和整理方面具有显著优势。
本文详细描述了 ChEMBL 药物数据的整理过程。这些过程包括从多个来源提取数据、整理数据以及将整理后的数据整合到 ChEMBL 数据库中。这些整理过程通常涉及大量的手动和半自动操作。其目标是提供最高质量的数据,这意味着在整理过程中会进行许多检查,以确保不同数据源之间的数据一致性。如果不同来源的数据存在差异,整理人员需要进行深入讨论,以达成一致的结论。这些整理过程需要耗费大量时间,因此药物和临床候选药物数据通常每年更新一次。然而,随着技术的进步,ChEMBL 的整理流程正在不断改进,以提高效率并确保数据的持续更新。
为了提高数据透明度,ChEMBL 采用了一系列措施。例如,药物形式的原始来源信息被映射到具体的药物形式上,而不是简单的药物名称。参考文献(如网页链接或科学文献)也被记录,以保持数据的可追溯性。此外,ChEMBL 正在努力检查和更新那些目前未公开原始参考的药物数据。这些措施确保了数据的可验证性和透明度,使得数据用户能够更准确地理解数据的来源和含义。
在数据整合和可持续性方面,ChEMBL 也在不断努力。例如,ChEMBL 的临床试验流程(Clinical Trials Pipeline)自 2016 年开始定期运行,以准确提取临床试验中的干预措施和研究条件,并将这些信息映射到 ChEMBL 的药物条目中。该流程结合了半自动提取和大量的人工整理,为注册新的临床候选药物和相关数据提供了关键信息。此外,ChEMBL 还开发了针对欧洲药品管理局(EMA)批准药物的提取流程,以确保数据的完整性和准确性。由于 EMA 数据的结构较为复杂,这些数据需要经过多次检查和人工整理,以确保正确映射到相应的药物形式。
ChEMBL 还致力于提高其内部代码库、文档和工作流程的可持续性。近年来,ChEMBL 团队对代码库进行了重大改进,包括维护和更新 Python 环境和包,实施版本控制,大幅提高代码库和整理流程的内部文档质量,以及提供更清晰的外部文档(如本论文、常见问题解答、博客文章等)。此外,ChEMBL 还优化了数据库的透明度,通过共享内部数据库区域来实现所有整理和数据整合工作,删除了大量冗余的内部数据库表,增加了或明确了内部数据库的元数据,并改进了工作流程,使得每个整理过程由多个团队成员运行,从而提高讨论的频率和数据整理的清晰度。
药物整理过程中,ChEMBL 采用了多种方法来确保数据的准确性和一致性。例如,药物名称的整理需要考虑不同的来源,包括监管机构(如 EMA、FDA)提供的信息,以及药物的同义词、商品名和研究代码。对于某些药物,如已被批准但因安全性问题被撤市的药物,ChEMBL 还会记录相关的撤市信息和警告信息。此外,ChEMBL 还整理了药物的分子类型、手性、前药状态、给药途径、可获得性类型、治疗标志、首次批准年份和临床候选药物申请年份等信息。这些整理工作确保了药物数据的全面性和准确性,使得研究人员可以更好地利用这些数据进行药物发现和相关研究。
在整理药物名称、同义词和商品名时,ChEMBL 采用了多种规则。例如,对于已批准的药物,通常会使用监管机构提供的名称(如 EMA、FDA 等)作为首选名称,而这些名称通常与 GSRS(全球结构化名称)的首选名称一致。对于非已批准的药物,通常会优先使用 USAN(美国非专有名称)或 INN(国际非专有名称)的名称,如果这些名称不明确或不可用,则使用 GSRS 的首选名称。此外,对于某些药物,如含有希腊字母(如 α 和 β)的药物,这些字母会被写成完整的英文形式(如 alpha 和 beta)。ChEMBL 还采用了“化合物家族”的概念,使得每个分子都有一个父化合物(即去除了盐、溶剂和同位素的化合物)。这一方法有助于区分不同的药物形式,并确保数据的一致性。
在整理药物的化学结构时,ChEMBL 采用了多种方法。例如,对于某些数据源(如 USAN 和 INN),化学结构通常是手绘的,以确保准确性。对于 FDA 和 EMA 等数据源,化学结构通常是在药物标签信息中描述的。然而,对于某些数据源(如 ATC 和 ClinicalTrials.gov),化学结构可能仅以名称形式存在,而不是以结构式形式存在。因此,ChEMBL 采用了多种策略来处理这些情况。例如,如果药物名称与现有化合物名称匹配,则会使用标准的化学结构(如 SMILES、InChI 和 InChIKey)进行匹配。对于无法匹配的化合物,ChEMBL 会将其作为新化合物进行注册。此外,ChEMBL 还采用了 V2000 molfile 格式来存储化学结构,并利用 RDKit 工具进行标准化处理。然而,这种方法存在一些局限性,特别是在处理含有超过 12 个离子的化合物时,可能会导致 InChIKey 不唯一。因此,ChEMBL 正在准备向 V3000 molfile 格式过渡,以应对这些挑战。
对于生物序列信息的整理,ChEMBL 采用了类似的方法。例如,对于肽类药物,ChEMBL 会同时整理其化学结构和生物序列。对于蛋白质和核酸药物,ChEMBL 会记录其序列信息,包括轻链和重链的蛋白质序列、二硫键的位置、糖基化位点等。对于核酸药物,ChEMBL 会记录其序列信息,包括正义链或反义链。此外,ChEMBL 还计划在未来版本中整理更多的翻译后修饰信息,以提高数据的全面性。
在整理药物的分子类型时,ChEMBL 采用了基于化学结构和药物名称的分类方法。例如,对于含有“-mab”后缀的药物,通常会被归类为抗体。对于含有“-ase”后缀的药物,通常会被归类为酶。此外,ChEMBL 还整理了分子类型为“小分子”、“无机小分子”或“聚合物小分子”等。这些分类有助于用户更好地理解药物的化学性质,并为药物发现提供更准确的数据支持。
药物的给药途径也是 ChEMBL 整理的重要内容之一。例如,药物的给药途径可以是口服、注射或局部使用。ChEMBL 会记录这些信息,并将其与药物的化学结构和名称相关联。此外,ChEMBL 还整理了药物的可获得性类型,包括非处方药和处方药。这些信息对于药物的临床应用和市场推广具有重要意义。
药物的治疗标志(therapeutic flag)也是 ChEMBL 整理的一个重要属性。该标志用于区分药物是否主要用于治疗疾病,而不是作为诊断工具。例如,某些药物可能被标记为“诊断药物”,而另一些则被标记为“治疗药物”。ChEMBL 还整理了药物的首次批准年份和临床候选药物申请年份,以帮助用户了解药物的开发历史和市场情况。
在整理药物的前药状态时,ChEMBL 采用了多种方法。例如,前药通常会被标记为“前药”(prodrug),并记录其转化为药理活性成分的过程。此外,ChEMBL 还整理了药物的代谢路径信息,包括中间代谢产物和最终代谢产物。这些信息对于理解药物的药代动力学和药效动力学具有重要意义。
药物的撤市状态和警告信息也是 ChEMBL 整理的重要内容。例如,药物可能因安全性问题被撤市,这些信息会被记录在数据库中。此外,药物可能携带黑框警告(black box warning),这些警告信息通常与严重的不良反应相关。ChEMBL 还整理了药物的撤市原因和警告类别,以帮助用户更好地理解药物的安全性信息。
在整理药物的适应症时,ChEMBL 采用了多种方法。例如,适应症通常是从药物标签或临床试验数据中提取的,并被映射到 MeSH(医学主题词表)或 EFO(实验因子本体)的术语上。这些术语有助于用户更准确地理解药物的临床应用和研究方向。此外,ChEMBL 还整理了药物的适应症数据,并将其与药物的化学结构和名称相关联。
在整理药物的分子类型时,ChEMBL 采用了基于化学结构和药物名称的分类方法。例如,含有“-mab”后缀的药物通常被归类为抗体,而含有“-ase”后缀的药物通常被归类为酶。此外,ChEMBL 还整理了分子类型为“小分子”、“无机小分子”或“聚合物小分子”等。这些分类有助于用户更好地理解药物的化学性质,并为药物发现提供更准确的数据支持。
药物的撤市状态和警告信息也是 ChEMBL 整理的重要内容之一。例如,药物可能因安全性问题被撤市,这些信息会被记录在数据库中。此外,药物可能携带黑框警告(black box warning),这些警告信息通常与严重的不良反应相关。ChEMBL 还整理了药物的撤市原因和警告类别,以帮助用户更好地理解药物的安全性信息。
ChEMBL 的药物数据整理工作是一个持续的过程,旨在确保数据的准确性和完整性。为了实现这一目标,ChEMBL 采用了多种策略,包括手动整理、半自动整理和自动整理。例如,药物的化学结构整理需要结合多种数据源,并进行多次检查以确保一致性。此外,ChEMBL 还整理了药物的适应症、作用机制、警告信息和药物属性等信息,以提供全面的药物数据。
在整理药物的适应症时,ChEMBL 采用了基于 MeSH 和 EFO 的术语映射方法。例如,适应症通常是从药物标签或临床试验数据中提取的,并被映射到 MeSH 或 EFO 的术语上。这些术语有助于用户更准确地理解药物的临床应用和研究方向。此外,ChEMBL 还整理了药物的适应症数据,并将其与药物的化学结构和名称相关联。
ChEMBL 的药物数据整理工作不仅包括药物的化学结构和名称,还包括药物的分子类型、手性、前药状态、给药途径、可获得性类型、治疗标志、首次批准年份和临床候选药物申请年份等信息。这些信息对于药物的临床应用和市场推广具有重要意义。此外,ChEMBL 还整理了药物的适应症数据,并将其与药物的化学结构和名称相关联。
为了确保药物数据的准确性和完整性,ChEMBL 采用了多种质量评估方法。例如,药物数据的准确性可以通过比较不同数据源的信息来评估。药物数据的完整性可以通过检查是否涵盖了所有相关的药物信息来评估。药物数据的唯一性可以通过检查是否存在重复的化合物名称或同义词来评估。药物数据的一致性可以通过检查不同数据源之间的数据是否一致来评估。药物数据的时效性可以通过检查数据是否及时更新来评估。药物数据的有效性可以通过检查其是否符合预期的格式、类型和范围来评估。
尽管 ChEMBL 的药物数据整理工作已经取得了显著进展,但仍面临许多挑战。例如,数据源的多样性使得数据整理工作变得复杂。不同数据源的格式和内容差异较大,需要采用不同的整理方法。此外,数据源之间的不一致性也可能导致药物数据的不一致。对于某些药物,其化学结构可能无法明确,需要通过名称或同义词进行匹配。这些挑战需要通过持续的整理和优化来解决。
为了提高药物数据的整理效率和质量,ChEMBL 正在采用多种新技术。例如,ChEMBL 的整理团队正在探索使用自然语言处理(NLP)和机器学习技术来提高药物数据的整理效率。这些技术可以帮助自动提取和整理药物数据,减少人工整理的工作量。然而,这些技术的应用仍然需要谨慎,以确保数据的准确性和一致性。
ChEMBL 的药物数据整理工作不仅包括药物的化学结构和名称,还包括药物的分子类型、手性、前药状态、给药途径、可获得性类型、治疗标志、首次批准年份和临床候选药物申请年份等信息。这些信息对于药物的临床应用和市场推广具有重要意义。此外,ChEMBL 还整理了药物的适应症、作用机制、警告信息和药物属性等信息,以提供全面的药物数据。
ChEMBL 的药物数据整理工作是一个持续的过程,旨在确保数据的准确性和完整性。为了实现这一目标,ChEMBL 采用了多种策略,包括手动整理、半自动整理和自动整理。例如,药物的化学结构整理需要结合多种数据源,并进行多次检查以确保一致性。此外,ChEMBL 还整理了药物的适应症、作用机制、警告信息和药物属性等信息,以提供全面的药物数据。
总之,ChEMBL 的药物数据整理工作是一项复杂而重要的任务。通过采用多种整理方法和策略,ChEMBL 确保了其药物数据的高质量和全面性。这些数据不仅在药物发现和研究中具有重要价值,也在人工智能和机器学习等领域得到了广泛应用。随着技术的不断进步,ChEMBL 的药物数据整理工作将继续优化,以更好地满足数据用户的需求。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号