通过从文献中映射生物实体来搜索与疾病相关的基因（MaBEL）

《Computational Biology and Chemistry》：Searching disease-related Genes with Mapping of Biological Entities from Literature (MaBEL)

【字体：大中小】 时间：2026年02月18日 来源：Computational Biology and Chemistry 3.1

编辑推荐：

　　生物医学文献分析平台MaBEL整合PubMed、ScienceDirect等多源数据库，通过DOI去重实现非冗余文献检索，结合SciSpaCy、PubTator 3.0等模块化NLP流程，支持异步分布式处理。在7种疾病中处理14,000+独特文章，基因识别准确性与Open Targets平台高度一致，展示高效挖掘疾病相关基因的能力。

作者名单： Gratchela Dutra Rodrigues | Gabriel Liston de Menek | Darling de Andrade Louren?o | Frederico Schmitt Kremer

机构：巴西南里奥格兰德州佩洛塔斯市佩洛塔斯联邦大学技术发展中心

摘要

生物医学文献的指数级增长给系统地识别与疾病相关的基因和治疗靶点带来了重大挑战。我们推出了MaBEL（从文献中映射生物实体）这一可扩展且适应性强的文本挖掘平台，它将文献检索、实体识别和数据整合到了一个统一的框架中。与单一来源的文本挖掘系统不同，MaBEL能够从PubMed、Scopus、ScienceDirect、SciELO以及主要的预印本服务器（bioRxiv、medRxiv、arXiv、ChemRxiv）中检索论文，并通过基于DOI的去重机制确保信息的全面性和无冗余性。该平台采用了模块化的自然语言处理流程：使用SciSpaCy进行基因和蛋白质识别，BioSyn实现别名的快速标准化，以及PubTator 3.0进行丰富的语义和关系注释。MaBEL基于Flask、Celery和Docker构建的分布式架构，支持异步的大规模文本处理，并具备近乎实时的处理能力。在针对七种主要疾病的分析中，MaBEL处理了超过14,000篇独特文章，准确识别出高频出现的、与疾病相关的基因，并与Open Targets Platform的关联评分高度一致，证明了其在揭示生物学意义上的疾病-基因关系方面的可靠性。通过整合多源数据、可扩展的计算能力和模块化设计，MaBEL代表了一种新型的、可扩展的框架，超越了传统的静态单数据库方法，促进了快速假设生成，并加速了转化研究中的分子靶点发现。源代码可访问地址：https://github.com/omixlab/Mabel

引言

生物医学研究的迅速发展催生了对自动化文本分析工具的日益增长的需求，这些工具能够从大量非结构化的科学数据中提取相关信息并生成知识（Kabiljo等人，2009；Tatar和Cicekli，2009；Fleuren和Alkema，2015）。在这些任务中，提取基因和蛋白质名称对于理解分子机制和疾病途径尤为重要，因为它使研究人员能够阐明生物过程并识别潜在的药物靶点（Kilicoglu等人，2017）。

尽管近期取得了进展，但从科学文献中检索基因和蛋白质信息仍然是一个劳动密集型过程。在药物发现过程中，识别候选药物的分子靶点是至关重要且最具挑战性的步骤之一（Rasul等人，2022），这一过程可能需要10到15年才能让安全有效的分子上市（Koutroumpa等人，2023）。这凸显了需要高效方法来识别与疾病相关的分子靶点并加速药物发现流程（Singh，2020）。

为应对这些挑战，已经开发出了多种生物医学文献文本挖掘工具。Darling（Karatzas等人，2022）是一个基于Web的工具，它通过整合OMIM（Amberger等人，2014）、人类表型本体（HPO）（K?hler等人，2020）和DisGeNET（Pi?ero等人，2019）的数据，从与疾病相关的出版物中提取并可视化生物实体。OnTheFly^2.0（Baltoumas等人，2021）是一个用户友好的实体提取和网络分析工具，利用EXTRACT工具进行命名实体识别（NER）。BioTextQuest v2.0（Theodosiou等人，2024）是一个开源平台，通过机器学习对PubMed摘要进行聚类，并利用EXTRACT标签器识别生物实体。DISEASES（Pletscher-Frankild等人，2014）是一个Web工具，它整合了来自文本挖掘、精选文献和基因组数据的疾病-基因关联，采用基于词典的NER和共现评分。FACTA（Tsuruoka等人，2008）是一个实时文本挖掘系统，可以从MEDLINE摘要中识别和排名生物医学概念关联。NetMe 2.0（Di Maria等人，2024）是一个基于Web的平台，它从PubMed、自由文本文档和PDF中提取生物医学实体和关系，并使用OntoTagMe（Muscolino等人，2022）和SpaCy将其表示为生物医学知识图谱（BKG），同时包含一个用于知识摘要的Graph-RAG模块。EXTRACT（Pafilis等人，2016）是一个辅助注释宏基因组记录的工具，通过NER识别环境、生物体和疾病术语。PubAnnotation（Kim等人，2019）提供了一个灵活的文本挖掘生态系统，通过基于词典的映射优化生物医学文本注释，包括基因、疾病和化学物质等实体。PESCADOR（Barbosa-Silva等人，2011）是一个基于Web的文本挖掘工具，旨在从PubMed摘要中提取并可视化生物分子相互作用网络。BioBERT（Lee等人，2019）是一个预训练的语言模型，通过解决通用语料库和生物医学语料库之间的词汇分布差异来提升生物医学文本挖掘的效果。最后，PubTator 3.0（Wei等人，2024）利用自然语言处理（NLP）和人工智能（AI）处理PubMed和PMC文章，以改进生物实体及其关系的检索和解释（详见补充材料1）。

尽管这些工具提供了宝贵的资源，但它们在整合多种数据源、支持实时处理或高效扩展方面仍存在局限性。为了解决这些问题，我们推出了MaBEL（从文献中映射生物实体），这是一个旨在自动化科学文献搜索、提取和摘要的综合性工具。MaBEL提供了一个统一的、可扩展的框架，它将来自多个数据库（包括PubMed、ScienceDirect、Scopus以及arXiv、ChemRxiv、medRxiv和bioRxiv等预印本仓库）的实时文献检索整合到一个基于DOI的去重语料库中。其模块化设计结合了互补的NER组件：SpaCy（SciSpaCy）用于人类基因和基因产物的识别，PubTator用于精细的语义和关系搜索，BioSyn用于快速关键词标准化，从而确保对多种生物实体的准确和一致映射。MaBEL支持并行和大规模文本处理。其可扩展性还通过可更换的NER流程、可重新训练的别名词典和集成的AI层（DeepSeek-R1）得到进一步提升，这使得检索到的文献可以进行交互式探索和上下文摘要。总体而言，这些特性使MaBEL成为一种新型的、灵活的高通量系统，将生物医学文本挖掘提升到了超越传统静态单数据库设计的水平。

数据来源和文献检索

为了确保对生物医学文献的广泛和代表性覆盖，MaBEL整合了多个文献数据库和预印本仓库，包括PubMed、ScienceDirect、Scopus以及arXiv、ChemRxiv、medRxiv和bioRxiv（Born和Manica，2021）。选择这些来源是为了平衡对同行评审出版物的访问与新兴研究的需求，特别是在快速发展的生物医学领域。

从所有来源检索的元数据被整合到一个统一的语料库中。

结果

我们从三个互补的维度评估了MaBEL的性能：（i）在黄金标准基准测试中的内在基因识别准确性；（ii）在针对疾病的、大规模文献语料库中的应用表现；（iii）计算性能和可扩展性。以下结果总结了NER的比较性能、疾病级别的基因覆盖率和相关性、基因频率分布的统计特性以及端到端的运行时间。

讨论

在这项研究中，我们将MaBEL作为一个可扩展且灵活的框架进行介绍，用于基于文献的基因发现，并通过内在基准测试、针对疾病的案例研究和计算可扩展性分析来评估其性能。在七种主要疾病中，MaBEL高效地检索并分析了超过14,000篇独特的研究，展示了其整合来自多个来源的大型异构生物医学语料库的能力。PubMed、Scopus和ScienceDirect在这些研究中的主导地位尤为显著。

结论

MaBEL提供了一个可扩展且可扩展的框架，用于从大型生物医学文献语料库中提取、分析和解释疾病-基因关系。通过结合多源文献检索和互补的NER策略，MaBEL明确了生物医学文本挖掘中覆盖率和精度之间的基本权衡。我们的结果表明，以覆盖率为导向的提取方法能够获得更广泛和更多样化的基因信息，而以精度为导向的注释方法则能够提高结果的准确性。

作者声明

GDR负责软件开发和标准化模型的训练。GLM负责软件实现、NER模型的开发以及PubTator的集成。DAL参与了写作工作，并提供了与基因相关方面的理论背景支持。FSK协调了整个项目。

作者贡献声明

Darling de Andrade Louren?o：撰写 – 审稿与编辑、初稿撰写、可视化、验证、方法论、研究、形式分析、概念化。 Frederico Schmitt Kremer：监督、项目管理、方法论、研究、资金获取、形式分析、概念化。 Rodrigues Gratchela：撰写 – 审稿与编辑、初稿撰写、可视化、验证、软件开发、方法论、研究、资金获取、形式分析。

利益冲突声明

下列作者声明他们在提交给《计算生物学与化学》期刊的本文中讨论的主题或材料方面不存在任何利益冲突。

致谢

我们感谢CNPq对Darling de Andrade Louren?o（300854/2023-4）、Gabriel Liston de Menek（104284/2023-4）和Gratchela Dutra Rodrigues（301687/2023-4）的资助。

摘要

引言

数据来源和文献检索

结果

讨论

结论

作者声明

作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题