原生生物-原核生物共生关联开放关联数据库(PPSDB):构建结构化知识图谱推动共生互作研究

【字体: 时间:2025年10月12日 来源:Journal of Eukaryotic Microbiology 2.6

编辑推荐:

  本综述系统介绍了原生生物-原核生物共生数据库(PPSDB)的构建与应用。该知识库采用关联开放数据(LOD)原则,通过Wikibase平台整合了1146条经人工校验的共生互作数据,实现了与Wikidata、NCBI Taxonomy等外部数据库的语义映射。其创新性数据模型有效解决了微生物分类不一致性和信息不完整性问题,支持SPARQL语义查询和多维度分析,为共生机制研究和微生物生态学提供了强大的数据基础设施。

  
引言:揭示微生物共生研究的数据整合挑战
随着原生生物(真核微生物)与原核生物(细菌和古菌)之间共生互作的生态和进化重要性日益凸显,研究者面临日益增长的数据多样性和文献管理挑战。传统研究文章和综述虽提供静态信息,但缺乏与原始数据的程序化链接和结构化查询能力。现有生物互作研究还存在信息可发现性低的问题,理想数据库应超越简单物种列表,整合系统发育归属、互作类型和环境背景等多维度信息。
研究采用知识图谱(knowledge graph)作为解决方案,该数据结构将概念/实体抽象为节点,关系抽象为边,能够更自然地表示复杂的多向或嵌套关系。通过标准化标识符(URI)和外部数据库映射,实现了关联开放数据(Linked Open Data)构建,使术语使用与社区保持一致,并支持利用本体论中编码的语义关系进行复杂查询。
材料与方法:Wikibase平台与数据建模创新
技术平台选择与工具链
数据库构建基于Wikimedia Deutschland提供的Wikibase.cloud服务,通过web界面、QuickStatements批量编辑和Python脚本(使用WikibaseIntegrator库v0.12.5)进行数据操作。定期通过mediawiki-dump-generator进行XML转储,并通过GitHub托管Global Biotic Interactions(GloBI)的导出数据。网络指标计算使用networkx v3.4.2完成。
语义数据模型设计
在Wikibase平台中,节点称为"items",连接边被赋予特定含义的"properties"。每个连接构成一个"statement",包含主语和宾语。语句本身可进一步通过"qualifier"语句添加信息,并可标注参考文献。
项目采用Wikidata的"classes"和"instances"类型体系:类是具有共同属性的项目集合,实例是类的成员。例如,"Pelomyxa palustris"是"formally named taxon"类的实例,后者又是"taxon"的子类。PPSDB中的其他类包括参考文献、生物体部位、分析方法、环境术语和互作类型,所有项目最终都源自根类"entity"。
生物互作被建模为连接两个分类单元项目的"interacts with"属性语句。每个语句进一步通过限定符说明:(i)共生体在宿主生物体/细胞中的定位;(ii)用于鉴定宿主和共生体的分析方法;(iii)生物互作性质(如固定有机碳转移、致病性)。分类单元项目的其他语句将其映射到外部分类数据库和代表性序列记录,并描述分离或采样环境背景。
数据整理与外部标识符映射
通过临时关键词搜索和相关综述文章收集已报道的原生生物-原核生物共生互作。尽可能从原始研究出版物提取相关信息,并映射到外部标识符(如果存在合适精确匹配)。
分类单元项目代表相互作用的生物体,理解为种级或以下分类等级,即使只鉴定到更高级分类单元。如有序列数据,则将分类单元链接到命名它的代表性序列,确保名称与实证数据关联。如果可用,链接等效的NCBI Taxonomy标识符。根据分类单元名称,将正式描述或"Candidatus"(原核生物)分类单元链接到Wikidata和原核生物名称列表(LPSN)。
共生体在宿主体内的定位映射到基因本体论(GO)中的细胞解剖学术语或Uberon中的后生动物解剖学术语(针对同时也是动物共生体的原生生物)。引用文献链接到数字对象标识符(DOI)和Wikidata,缺失的引用通过Scholia工具轻松导入。
使用三个属性在不同尺度描述环境背景——大尺度环境背景、局部环境背景和环境材料——采用环境本体论(EnvO)术语,遵循MIxS指南。记录用于表征生物体的方法,以便用户评估支持每个陈述的证据基础。技术映射到生物医学调查本体论(OBI),互作类型映射到OBO关系本体论。
数据映射与建模的挑战与解决方案
大多数挑战与分类学相关,因为微生物常使用非正式或临时名称,且采用不同的方法和详细程度进行表征。
对于具有NCBI Taxonomy等效项的非正式或临时名称:许多研究未分配正式分类单元名称,但其系统发育归属已知,序列数据可用,且NCBI Taxonomy中相应的非正式命名分类单元项目似乎与研究中的分类概念等效。这种情况下,项目映射到该NCBI分类单元ID,并标注引用出版物中使用的非正式名称以及其他出版物和数据库中的已知别名。
对于不在NCBI Taxonomy中但序列数据可用的分类概念:NCBI Taxonomy中的分类单元项目和序列记录的生物分类注释可能不是最新的,或可能与已发表文献不同。例如,纤毛虫物种"Eufolliculina methanicola"在科学出版物中正式描述,但该研究的序列在Genbank中以占位符分类单元"Folluculinidae sp."(NCBI: txid1934002)发布,该标识符用于仅鉴定到科水平的记录,因此可能代表不同物种的混合物。PPSDB项目因此不映射到NCBI Taxonomy,因为如果使用该标识符检索序列数据可能导致不正确结果。
对于无序列数据可用的分类单元名称/概念:生物体可能仅通过形态学鉴定,未使用测序方法,或研究中产生的序列数据无法找到。例如,在"Bihospites bacati"中鉴定为共生体的"Arcobacter"物种,虽然报道了标记基因测序,但序列未发表。或者,生物体可能通过形态学或群体特异性分子探针等方法鉴定到更高级分类群。PPSDB中此类分类单元的项目根据出版物报道内容标注描述性名称,但不映射到外部标识符。
实验诱导的互作:一些共生微生物首先在一个宿主物种中鉴定,但在实验室中维持在另一个宿主中,因为原始宿主不适合实验。例如,"Acanthamoeba castellanii"已被用作从其他阿米巴分离的各种细胞内细菌的实验宿主。这些实验诱导的互作用不同属性"interacts experimentally with"表示,以区别于自然发生的互作。
结果与讨论:数据库功能与应用案例
数据库访问与统计
PPSDB托管于Wikibase.cloud,可通过web界面浏览。提供SPARQL端点用于程序化查询,结构化数据以CC0 1.0公共领域贡献发布。
数据库目前(2025年9月27日)记录了1146个生物互作,涉及558个宿主项目和862个共生体项目,引用433篇参考文献。最常代表的宿主原生生物门是纤毛虫门(158个分类单元项目)、Metamonada(82个)和Amoebozoa(54个),而最常代表的共生原核生物门是"Pseudomonadota"(308个项目)、"Methanobacteriota"(75个)和"Bacteroidota"(69个)。这无疑反映了研究人员的活动而非这些生物的丰度或生态意义。
SPARQL查询应用
Wikibase平台捆绑了使用SPARQL语言的查询引擎,该语言与更知名的SQL有相似之处,但专为知识图谱设计。
示例查询包括:查找位于宿主细胞核(或其更特定区室)中的共生体实例;通过荧光原位杂交(FISH)鉴定但未通过系统发育标记基因测序的共生体实例;查找特定合著者出版物中描述的共生关系。这些"联合"查询利用了PPSDB到Wikidata的映射。
共生体共现网络分析案例研究
与某些共生体高度特异性于单一宿主物种的普遍认知相反,一些微生物共生体存在于多个宿主物种中。著名例子是alphaproteobacterium"Ca. Megaira polyxenophila",它与包括纤毛虫和绿藻在内的多种真核生物宿主关联;这些宿主中的许多也有其他共生体。
通过SPARQL查询将与"Ca. M. polyxenophila"相关的宿主-共生体连接可视化为网络,显示某些共生体,如"Polynucleobacter necessarius"和"Ca. Caedimonas varicaedens",本身也存在于多个宿主中。这提出了宿主-共生体识别以及这些共生物种占据的共生生态位问题。
识别最"群居"共生体的简单方法是计算它们共同出现的其他共生体数量。在网络理论中,这对应于节点的度。从数据库检索共生体在同一宿主物种中报道的共现,网络可在查询引擎中可视化为交互式图形。
计算基于共现图的其他网络指标显示:"Ca. M. polyxenophila"(节点度27)和"P. necessarius"(度20)是具有最多共现的两种共生体。PageRank指标测量中心性,即网络通过给定节点连接的程度。局部聚类系数测量相邻节点之间的连接密度。
"Ca. Armantifilum devescovinae"(白蚁肠道鞭毛虫共生体)具有最高PageRank(0.0173),尽管其度仅为7。显著的是,其聚类系数为零,因为它共同出现的物种彼此之间不共同出现,只与"Ca. A. devescovinae"共同出现。这种模式可能表明相互排斥,或者提示"Ca. A. devescovinae"实际上包含多个物种,而非如最初报道的不同菌株。
"Ca. Endomicrobium trichonymphae"(另一种白蚁肠道鞭毛虫共生体)也因其度(5)具有出乎意料的高PageRank(0.00739),但具有非零聚类系数(0.40)。这是因为两个宿主物种据报道含有"Ca. E. trichonymphae" alongside其他共生体,但不同于"Ca. A. devescovinae",每个都有多个共同共生体。
这些指标不应表面理解,因为信息来自异质来源聚合。用户可通过PPSDB中整理的信息评估报道共生关系的证据基础。
软件平台选择与比较优势
选择Wikibase作为数据库平台,因其具有基于web浏览器的交互界面和程序化访问API,并可作为云服务使用。Wikibase最初作为最大开放知识图谱Wikidata的后端开发,其设计迎合Wikidata模型,但易用性、活跃用户社区、持续支持和发展以及SPARQL引擎集成等优势超过了这一潜在限制。
现有工具和库可直接应用,无需重新发明轮子。与Wikidata的联合搜索便利性也是优势。许多当前Wikibase用户来自文化遗产领域,包括欧盟和德国国家图书馆等机构。PPSDB表明在自然科学中的应用是直接的。
技术要求和专业知识仍然是采用知识图谱的障碍。Wikibase.cloud是小型项目和由学科专家驱动的原型的良好折衷方案,这些专家可能没有语义网技术的深厚背景。无需编程经验即可开始,通过web界面进行数据输入和编辑,用户随后学习其他工具(如用于表格数据输入的QuickStatements、用于查询的SPARQL)。用户管理、项目规划和讨论页面可在与数据库相同的wiki上维护,使其自成一体。
其他具有类似目标的项目使用了表格文件格式(如PIDA)或构建定制软件(如AQUASYMBIO、Viral Host Range DB、Virus-Host DB)。此类软件长期维护更困难,需要更多努力与其他关联数据集集成。类似考虑已被从其他平台迁移的Wikibase用户引用。
数据整理的良性循环与长期保存
在数据整理过程中,发现在映射项目到NCBI Taxonomy和Wikidata时存在过时记录或错误。直接编辑Wikidata,同时通过电子邮件联系NCBI Taxonomy团队进行更正。常见问题包括:尽管已发表正式分类单元名称或Candidatus名称,NCBI Taxonomy记录仍使用临时名称;以及Wikidata上尚未代表的分类单元名称或出版物。
关联开放数据自然促进链接资源之间的协作和互利关系,使得一个资源的整理和数据清理也使其他资源受益。即使数据是链接和开放的,感兴趣的用户可能无法轻松找到它们。因此,PPSDB中的核心互作数据以表格形式导出,供全球生物互作(GloBI)数据库索引,这是一个物种互作数据的聚合器,可从其网站和通过R包搜索。这提高了原生生物的可见性(在生态研究中代表性不足)以及原始出版物(被完整引用)的可见性。
为确保数据库的长期可用性,定期XML转储备份在Internet Archive上。GloBI的导出也单独在Zenodo上存档。
数据建模的剩余挑战与未来方向
文献中的某些类型陈述仍然难以在数据模型中正式表示。关于高级分类单元的广泛陈述(例如,"所有"Kentrophoros"物种都与来自"Ca. Kentron"属的细菌相关)通过在那些分类单元内为每个已知物种创建单独项目和链接来表示。这种陈述暗示尚未研究或描述的宿主物种也将被发现与相应的共生体物种相互作用。然而,不能为未知物种创建项目,因此保守地不添加此类隐含陈述。
生物分类学以外的其他方面的建模相对基础,可以进一步发展。对于共生体定位,目前不区分不同类型的拓扑关系。例如,产甲烷内共生体通常位于宿主细胞质中靠近氢化体的位置,但这一细节未被单个"subject body part"属性捕获。对于互作类型,大多数术语尚未映射到OBO关系本体论(RO),因为许多对微生物生态学家有意义的术语(如"syntrophy"和"auxotrophy")未出现在RO中。许多微生物互作的结果(如互利与寄生)和功能也不清楚或仅是推断。然而,这些方面更精细的建模可能对大多数用户过于复杂,因此更简单的表示可能更有用。
微生物组调查研究被排除在PPSDB范围之外。然而,一些较大的原生生物与多种原核生物相关;有些可能是稳定的伙伴关系,而其他是兼性的。测序调查可能每个宿主物种揭示数十种此类互作——是否都应包括在数据库中?
最后,从出版物中提取相关信息存在实际障碍。分类单元名称和序列登录号可能分散在手稿和支持信息中,甚至跨多个出版物;同一生物体可能使用不同名称;方法可能报告不完整;在少数(幸好罕见)情况下,根本未报告哪个共生体属于哪个宿主,即使两者都单独表征。建议作者以表格形式总结生物互作结果,其中任何序列登录号或标识符也直接列出。
超越数据库本身,PPSDB旨在展示知识图谱特别适合建模生物互作和整合生物数据,并描述如何解决特定挑战,如分类不一致性、不确定性和名称及标识符的扩散。邀请同事通过编辑数据库或提醒未表示的共生互作来贡献PPSDB,并考虑采用知识图谱用于自己的项目。
该模型可通过添加新类和属性轻松适应其他类型和方面的生物互作。例如,表示两种植物物种之间化感互作的陈述可有限定符链接到负责的植物化学物质,后者表示为"chemical"类的项目,并映射到ChEBI等数据库。PPSDB本身可扩展以涵盖其他分类群;病毒特别相关,因为一些原生生物的巨型病毒最初被认为是细菌共生体。如上所述,有限数量的非原生生物、非原核生物分类单元已在数据库中表示。
未来工作者可能选择以不同方式建模互作,或在相关主题上建立新的知识图谱项目。为使工作超出项目结论仍可使用,建议新的知识图谱项目通过遵循关联开放数据范式(即在数据库之间映射实体,特别是Wikidata)从开始就与更广泛生态系统集成,并通过与GloBI集成长期保持数据可查找和可访问。
当前数据整理的瓶颈在于发现和解析相关科学文献。其他项目已数据挖掘分子序列元数据(如Genbank记录中的"host"标签)以产生大规模物种互作数据集。此类管道最适合常规通过测序描述的
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号