
-
生物通官微
陪你抓住生命科技
跳动的脉搏
"TreeHub:首个自动化整合135,502棵系统发育树的大规模开放数据库推动生命演化研究革新"
【字体: 大 中 小 】 时间:2025年06月03日 来源:Scientific Data 5.8
编辑推荐:
为解决系统发育树数据分散、更新滞后的问题,中国科学院植物研究所团队通过文本挖掘与多源数据库整合,构建了覆盖135,502棵系统发育树的TreeHub数据集。该研究创新性地采用Dryad/FigShare API自动采集、DendroPy验证树文件格式、NCBI Taxonomy进行物种注释,实现了7,879篇文献中系统发育数据的标准化集成,为进化生物学和生物多样性研究提供了高密度数据支持,成果发表于《Scientific Data》。
生命之树的绘制一直是生物学研究的核心挑战。系统发育树(phylogenetic trees)作为描述物种演化关系的"生命地图",在解决生物分类、生态适应、疾病传播等关键科学问题中具有不可替代的作用。然而,传统数据库如TreeBASE依赖人工提交导致数据更新滞后,而海量文献中的树形数据又因存储格式混乱(如.newick、.nexus等)、物种注释缺失等问题难以被有效利用。这种数据碎片化现状严重制约了宏观进化分析和跨学科研究的进展。
中国科学院植物研究所的Ping Wu、Hui Wu团队在《Scientific Data》发表的研究中,提出了"文献挖掘+数据库融合"的创新解决方案。通过开发自动化流程,研究人员从7,879篇文献中整合出135,502棵系统发育树,构建了目前最全面的开放数据库TreeHub。该数据集不仅涵盖从古菌到高等植物的全生物谱系,更通过双重验证机制确保98%以上的分类准确性,为演化生物学研究提供了前所未有的数据基石。
研究团队采用多模态技术路线实现数据整合:
1)通过PubMed/Web of Science API获取文献元数据,以DOI(digital object identifier)为唯一标识去重;
2)利用Dryad/FigShare的Search API下载树文件,基于后缀名(.nwk/.tre等)和DendroPy库验证Newick/NEXUS格式有效性;
3)结合NCBI Taxonomy数据库(2025版)进行物种注释,通过文献标题/摘要与树文件终端节点名称的双重交叉验证提升准确性;
4)整合TreeBASE历史数据,使用PostgreSQL实现结构化存储。
【Phylogenetic research collection】
通过关键词"phylogeny"、"systematics"等检索609种期刊文献,构建包含标题、作者、DOI等字段的JSON格式元数据库。特别针对Dryad中32%无关联文献的树文件,利用Crossref API补充元数据,显著提升数据完整性。
【Taxonomic assignment】
创新性地设计"文献-树文件"双重分类标注系统:从文献文本中提取的物种名称准确率达95.8%(如避免将地质学术语"Mya"误判为蛤蜊属名),而仅依赖树文件节点名的准确率仅7.7%。专家复核机制最终实现全数据集100%分类可信度。
【Data Records】
数据库提供JSON-ZIP和PostgreSQL两种格式,包含Tree(树结构)、Study(文献)、Taxonomy(分类)等6个关联表。平台支持按科学名称精准查询,如输入"Angiosperm"可快速获取被子植物相关2,814棵进化树。
这项研究的突破性在于:首次实现系统发育数据的自动化、标准化整合。TreeHub不仅解决了传统数据库更新缓慢的问题(TreeBASE最新数据止于2019年),其API接口设计更支持实时数据扩充。对于演化发育生物学(evo-devo)研究,该数据集能快速定位关键进化节点;在保护生物学中,则可通过跨物种树形比较评估濒危等级。研究团队开源的Python工具包(tree_crawler)进一步降低了领域内数据挖掘门槛。
值得关注的是,TreeHub中21%的树文件来自新兴的 phylogenomics(系统基因组学)研究,这些整合多基因数据的进化树为解析复杂演化事件(如被子植物起源)提供了高分辨率框架。正如作者指出,该资源将加速"从单一基因树到生命之树"的研究范式转变,推动建立跨物种、跨组学的统一演化理论。未来通过引入机器学习进行树形拓扑结构分析,有望在病毒进化预测、作物驯化溯源等应用领域产生更大影响。
生物通微信公众号
知名企业招聘