编辑推荐:
为解决生物医学文献中命名实体共现关联的机器可读表达难题,研究人员开发资源描述框架(RDF)数据模型并集成至 PubChemRDF。通过文本挖掘 PubMed 文献构建含实体及关联的三元组存储库,可通过 SPARQL 查询解答生物医学问题,提升数据可用性与可访问性。
在生物医学研究领域,海量文献中蕴含的化学物质 / 药物、基因 / 蛋白质、疾病等命名实体及其关联信息,是构建生物医学知识库和知识图谱的重要基础。然而,如何将从生物医学文献语料中提取的命名实体间共现关联以机器可读的格式进行表达,一直是制约数据高效利用的关键问题。传统的数据存储和查询方式难以满足对复杂实体关系的语义层面探索需求,无法充分挖掘文献中隐含的生物医学知识,这使得研究人员难以快速、准确地获取所需信息,阻碍了跨领域研究和新发现的产生。
为突破这一困境,美国国立卫生研究院(NIH)下属的国家生物技术信息中心(NCBI)的研究人员开展了相关研究。他们致力于开发一种能够有效表达命名实体共现关联的数据模型,并将其与现有的生物医学数据资源相结合,以提升数据的可用性和可访问性。研究团队构建了资源描述框架(Resource Description Framework,RDF)数据模型,并将其集成到 PubChemRDF 资源中。该研究成果发表在《Journal of Cheminformatics》上。
研究人员采用了以下主要关键技术方法:首先,利用 LeadMine 软件对截至 2023 年 6 月 6 日的 3600 万篇 PubMed 记录进行文本挖掘,从标题和摘要中提取化学物质、基因、蛋白质和疾病等实体,并将其与 PubChem 中的记录进行匹配;然后,运用统计分析和基于相关性的抽样方法,确定每个实体最相关的共现邻居;最后,将生成的共现数据转换为 RDF 格式,并通过自动化管道每月更新数据。
研究结果
共现数据集构建
通过对 PubMed 文献的大规模文本挖掘,成功提取了化学物质、基因、蛋白质和疾病等实体,并构建了包含这些实体及其共现关联的数据集。数据显示,像 “肿瘤” 这样的疾病实体可与超过 47,000 种化合物、28,000 个基因和 6000 种疾病共现,体现了其在生物医学研究中的高关注度。
RDF 数据模型设计
设计的 RDF 数据模型包含五种类型的节点,分别为代表命名实体(化合物、基因、疾病)的绿色椭圆、代表参考文献及其元数据(作者、期刊、资助机构等)的蓝色椭圆、代表命名实体共现(如化合物 - 疾病关联)的紫色椭圆、描述关联特征的白色矩形以及表示共现分数的白色六边形。模型利用 PubChem 特定词汇和多个外部本体(如 Semanticscience Integrated Ontology(SIO)、Funding, Research Administration and Projects Ontology(FRAPO)等)定义节点间的关系,实现了对实体共现关联的语义描述。
统一资源标识符(URI)设计
为化学物质、疾病和基因设计了统一资源标识符。化学物质和疾病的 URI 基于 PubChem 化合物标识符(CIDs)和疾病标识符(DZIDs),基因的 URI 基于基因符号,并对基因符号进行小写标准化和特殊字符处理,以解决不同物种基因符号的歧义问题。
自动化更新管道与数据可用性
开发了自动化管道用于定期提取命名实体、匹配 PubChem 记录并将数据转换为共现 RDF,数据每月更新并通过 PubChem FTP 站点和 Zenodo 存储库公开提供,方便研究人员下载和使用。
应用案例展示
通过多个 SPARQL 查询应用案例展示了数据模型的实用性。例如,检索与特定化学物质共现的疾病、获取同时提及特定化学物质 - 疾病对的参考文献、通过基因寻找与化学物质隐性相关的疾病、筛选与多个基因共现的化学物质以及查找与多种疾病共现的基因等。这些案例表明,该模型能够帮助研究人员从不同角度探索生物医学知识,为研究提供新的思路和方向。
研究结论与讨论
本研究成功开发了一种基于 RDF 的数据模型,有效解决了生物医学文献中命名实体共现关联的机器可读表达问题,并将其与 PubChemRDF 集成。该模型不仅能够通过 SPARQL 查询实现对生物医学知识的语义探索,还能与其他信息资源中的科学数据无缝链接,显著提升了生物医学数据在语义网中的可用性和可访问性。
研究结果表明,该数据模型在挖掘文献中的隐含关联、支持跨领域研究和新发现方面具有重要价值。例如,通过共现分数和关联网络,研究人员可以快速识别潜在的药物 - 基因 - 疾病关系,为药物研发、疾病机制研究和精准医疗提供线索。此外,数据的定期更新和公开可用性确保了研究的持续性和可重复性,促进了全球生物医学研究社区的数据共享与合作。
尽管研究存在一定局限性,如文本挖掘工具的准确性、共现数据缺乏上下文信息以及基因与蛋白质未明确区分等,但该模型为生物医学数据的语义化处理和知识发现提供了重要的方法和资源,为后续研究奠定了基础。未来,随着技术的不断进步和数据的持续积累,该模型有望在生物医学领域发挥更大的作用,推动精准医学和个性化治疗的发展。