编辑推荐:
在化学信息学领域,为解决化学数据库存在的数据质量、数据共享和可持续性等问题,研究人员开展了关于保障化学数据库公共访问和完整性的研究。结果表明政府资金支持、数据规范和社区协作是关键。这对推动化学研究和创新意义重大。
在互联网飞速发展的时代,化学研究迎来了全新的局面。各类化学数据库如雨后春笋般涌现,为科研工作者提供了丰富的化学数据资源。然而,这些数据库在发展过程中暴露出诸多问题。一方面,数据质量参差不齐,错误数据在不同数据库间传播,影响研究的准确性;另一方面,数据的来源和版权不清晰,给数据的共享和再利用带来困难。此外,数据库的可持续性也面临挑战,缺乏足够的资金和资源支持数据的长期维护和更新。在这样的背景下,为了解决这些问题,美国环境保护署(EPA)的研究人员 Antony J. Williams 和 Ann M. Richard 开展了一项关于保障化学数据库公共访问和完整性的研究。
他们通过分析和总结自身在化学数据管理领域多年的经验,提出了确保化学数据库公共访问和完整性的三大支柱。该研究成果发表在《Journal of Cheminformatics》上,对化学信息学领域的发展具有重要意义。
研究人员主要运用了数据整合与分析技术,通过对多个化学数据库的数据进行收集、整理和分析,找出存在的问题和不足;还运用了文献调研方法,查阅大量相关文献,借鉴前人的研究成果和经验,为提出解决方案提供理论支持。
研究主要围绕三大支柱展开。
- 支柱 1:政府资助和公众支持构建可检索、可下载的化学数据库:在美国、欧洲等地,政府在化学数据库的创建、维护方面发挥着重要作用。政府通过直接资助研究项目或间接向高校提供研究资金,支持化学数据库的发展。与商业化学数据存储不同,政府的化学数据记录涵盖广泛的化学领域,且尽可能公开。例如,EPA 的 ToxCast 和多联邦机构的 Tox21 高通量筛选(HTS)项目,其数据通过 EPA 的 CompTox Chemicals Dashboard(CCD)和 NIH 的 PubChem 网站公开,供公众检索和下载。然而,确保数据管理的资金和资源充足是一个持续的挑战,需要政府持续投入和支持,以保障化学数据资源的长期可持续性和价值123。
- 支柱 2:明确的数据许可、来源追溯以及 FAIR 原则的应用:数据在不同数据库间的交换和复用常导致错误传播,且数据来源难以追溯,这给数据的验证和质量评估带来困难。以 PubChem 为例,其数据聚合方式可能导致错误放大,而 ChEMBL 的手动管理流程则确保了数据的高质量。此外,数据版权的不确定性也阻碍了数据共享。研究强调,应提高社区对数据使用的认识,采用标准化的许可实践,遵循 FAIR 数据原则(Findable, Accessible, Interoperable, Reusable,即可发现、可访问、可互操作、可复用),改进数据来源追溯,以促进数据的合理共享和使用456。
- 支柱 3:协调社区方法,规范结构格式、本体论和质量控制程序:公共化学数据库的数据质量差异很大,化学标识符和相关数据的错误关联普遍存在。不同数据库和软件工具在化学结构表示上的差异,导致数据导入 / 导出时出现不一致和错误。化学数据管理的挑战是多方面的,需要自动化和手动管理相结合,重点关注错误频发和影响较大的领域。同时,数据供应商应提供便于下载和使用的数据格式,并建立社区标准,促进数据交换。此外,培养专业的数据管理人员,提高社区参与度和协作,对于提高数据质量至关重要789。
研究结论表明,在线化学数据库是科研不可或缺的工具,但确保其数据准确性和长期可用性需要各方共同努力。三大支柱的提出为解决当前化学数据库面临的问题提供了方向。在讨论部分,研究人员指出,尽管新技术的发展为提高数据质量带来希望,但也存在风险,如机器学习和人工智能方法可能传播错误数据。只有坚持数据完整性,执行数据报告标准,推动严格的数据管理实践,并促进科学界的合作,才能确保在线化学数据库继续推动科学发现和创新。该研究为化学数据库的发展和管理提供了重要的理论和实践指导,有助于促进化学信息学领域的健康发展,推动药物研发、毒理学研究和环境科学等相关领域的进步。