面向植物科学的知识图谱AgroLD:整合多源异构数据以解析基因型-表型关系
【字体:
大
中
小
】
时间:2025年10月04日
来源:BMC Genomic Data 2.5
编辑推荐:
为解决植物科学中多源异构数据整合难题,研究人员开发了基于语义网技术的知识图谱AgroLD,整合151个数据集、10.8亿三元组,支持基因功能挖掘与表型关联分析,为作物改良和气候变化应对提供数据基础设施。
随着全球粮食需求持续增长和气候变化加剧,作物产量提升面临巨大挑战。植物科学领域近年来虽涌现出海量数据——从基因组序列到表型特征,从基因功能注释到代谢通路信息——但这些数据分散在不同数据库中,格式各异、标准不一,使得研究人员难以系统性地挖掘基因与表型之间的复杂关系。特别是在全基因组关联分析(GWAS)和转录组学研究当中,研究者常面临从大量候选基因中筛选关键目标的困境,传统方法往往依赖主观经验且效率低下。
为破解这一难题,由Larmande Pierre领衔的研究团队在《BMC Genomic Data》发表了题为“AgroLD: a knowledge graph for the plant sciences”的研究论文,介绍了一个专为植物科学设计的大规模知识图谱系统。该系统利用语义网技术,整合了来自151个数据集、33个命名图谱的10.8亿条三元组数据,覆盖51个植物物种(包括水稻、玉米、热带作物等),旨在为基因功能假设生成和验证提供统一平台。
为实现这一目标,研究团队开发了专门的信息提取、转换与加载(ETL)流水线,处理包括通用特征格式(GFF)、基因本体注释文件(GAF)、变异调用格式(VCF)在内的多种生物数据标准。这些流水线基于Python编写,支持高性能计算环境运行,并计划封装为可复用应用程序接口(API)。在数据建模方面,AgroLD重用了一系列标准本体,如序列本体(SO)、基因本体(GO)、植物本体(PO)、语义科学本体(SIO)和特征注释位置描述本体(FALDO),以提高与其他知识图谱的互操作性。实体统一标识符(URI)遵循Identifiers.org规范设计,并通过跨数据库参考链接扩展了约8000万条外部关联。
研究整合了Ensembl Plants、UniProtKB、StringDB、PlantTFDB等19类数据源,利用自定义RDF转换工具处理异构基因组数据。通过URI模式匹配和本体对齐实现实体链接,每年全面重建知识库以确保数据时效性。系统部署于法国South Green生物信息平台,得到ELIXIR欧盟节点支持。
AgroLD重点整合了热带作物和模式植物的分子与表型数据,新增40个物种(当前共51种),包括谷物、豆类和果树。数据涵盖基因、蛋白质、代谢通路、同源基因预测(Ensembl Compara)及生物网络(RiceNetV2、PlantRegMap)。概念框架构建于标准化本体之上,提高了数据的可互操作性与机器可读性。
针对生物数据的特殊性与大规模挑战,团队开发了40余个定制化RDF转换脚本,支持GFF、GAF、VCF等格式。流水线支持参数化运行与高性能计算,完整知识库每年重建,避免版本差异带来的问题。所有工具开源提供,文档详尽。
实体URI按Identifiers.org模式构造,未覆盖资源则采用http://purl.agrold.org规范。通过URI终端模式匹配和rdfs:seeAlso谓词实现跨源链接,增强与外部资源的集成。
为提升可访问性,AgroLD提供多种查询入口:快速搜索支持关键词与分面浏览;高级搜索整合类筛选与外部服务(如Pubmed、EMBL);SPARQL编辑器内置YASQE/YASR工具,提供查询模板与图形化结果;RESTful API按实体类(基因、蛋白质等)封装常用请求,如按基因组区域获取基因列表。
研究团队在讨论中指出,构建知识图谱面临数据异质性、实体对齐与质量评估三大挑战。当前通过格式统一、坐标标准化和模式匹配部分解决问题,但复杂实体链接(如不同命名空间标识符匹配)仍待深入。未来将扩展至更多生物实体(如miRNA、lncRNA)和关系类型(共表达、调控网络),并探索文本挖掘与外部知识融合方法。
AgroLD作为农业领域首个大规模语义网应用,通过高效整合多源数据支持关键基因发现和复杂性状解析,不仅服务于日常科研决策,也为实现作物精准改良和应对气候变化提供了重要数据基础设施。该平台将持续扩展物种覆盖与数据维度,推动植物科学进入数据驱动的发现新阶段。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号