综述:多模态数据整合以模拟、预测和理解植物生物多样性变化的系统综述
《Ecological Indicators》:Multimodal data integration to model, predict, and understand changes in plant biodiversity: a systematic review
【字体:
大
中
小
】
时间:2025年10月26日
来源:Ecological Indicators 7.4
编辑推荐:
本综述系统梳理了植物生物多样性多模态数据整合的研究现状,重点评估了GBIF、CoL、TRY等12个主流开放平台的数据库特征、数据标准(如Darwin Core)、整合方法(如SDM、机器学习)及其在应对CBD和UN SDG 15等全球保护目标中的挑战与机遇。
生物多样性涵盖遗传、物种和生态系统多样性,其保护对维持生态系统功能和人类福祉至关重要。然而,当前研究存在明显不平衡,动物多样性受到更多关注,而发展中国家植物多样性热点地区的研究相对不足。这一知识缺口,加之气候变化和人类活动的威胁,阻碍了有效保护策略的制定。
为系统评估现有数据资源,研究者通过Web of Science、Scopus和Google Scholar等数据库,结合关键词检索,筛选出20篇核心文献,并最终确定了12个全球尺度的植物生物多样性开放平台(如GBIF、CoL、TRY、BIEN等)。筛选标准包括分类覆盖度(至少涵盖整个植物界)、地理分辨率(全球覆盖)、数据可访问性(平台活跃)等。
这些平台在数据类型上各有侧重:GBIF主要提供物种出现记录、环境数据和图像;TRY专注于植物功能性状;CoL和WFO等则提供权威的分类学名录。数据量方面,GBIF拥有约5.38亿条植物出现记录,TRY拥有约1500万条性状记录,展现了大数据时代的巨大潜力。然而,平台间的数据存在部分重叠,且各自的数据格式、信息完整性差异显著,例如GBIF中约40%的记录存在字段信息缺失。
对平台数据的分析揭示了显著的空间和时间偏差。空间上,南美洲、非洲和亚洲等地区的数据覆盖明显不足,存在严重的信息鸿沟。时间上,各数据库的覆盖范围极不均匀,Map of Life (MOL) 的数据可追溯至16世纪,而Catalogue of Life (CoL) 主要覆盖当代数据,BioTIME的时间序列数据则多止于2016年左右。这种时空异质性给长时序的全球变化研究带来了挑战。
有效整合多源异构数据是生物多样性信息学的核心挑战。分析发现,达尔文核心标准(Darwin Core, DwC)是当前最主要的生物多样性数据标准化方案,被12个平台中的9个所采用。其他标准如生态元数据语言(EML)、都柏林核心(DC)等也有应用。
针对分类学名称不一致的问题,平台普遍采用分类学名称解析服务(TNRS)、分类学主干系统(TBS)和名录方法(CA)等工具进行协调。其中,Tropicos、WFO和CoL提供的分类学信息被其他平台广泛引用和整合。对于性状数据,由于其测量单位和术语的多样性,平台(如TRY、BIEN、GIFT)采用了特定的本体论,如可扩展观测本体论(OBOE)、植物性状手册(PTH)等,以增强数据的互操作性。
尽管在标准和工具层面存在共享,但平台间的实际数据交换仍然有限。GBIF、CoL和WFO等平台通过共享标准和数据,构成了整合网络的核心节点,而一些专业平台(如BioTIME、ForestForward)的互操作性则相对较弱。这表明,在实现真正无缝的数据集成方面仍有很长的路要走。
理解环境变化对生物多样性的影响至关重要。在分析的平台中,只有BIEN、GIFT和MOL三个平台直接整合了环境变量(如温度、降水)和遥感数据(如土地覆盖、地形),数据多来源于WorldClim、CHELSA、NASA等全球数据集。研究表明,气候变量的使用频率高于遥感数据。
生物多样性通常通过物种丰富度(物种数量)和均匀度(个体分布)来衡量。为了消除样本量影响,常使用多样性指数,如马格列夫指数(Margalef)、香农-维纳指数(Shannon-Wiener)和辛普森指数(Simpson)等。近年来,遥感技术被尝试用于估算这些多样性指数和基本生物多样性变量(EBVs),为大规模监测提供了新途径。
分析时空生物多样性模式的方法多样。描述性方法(如S?rensen相似性指数、卡方检验)用于比较区域物种组成。概率性方法,如物种分布模型(SDM),特别是新兴的集成SDM(iSDM),能够整合多源数据来预测物种分布和气候变化影响。参数化方法,如广义线性混合模型(GLMMs)、广义加性模型(GAMs),可以处理复杂的空间自相关性和非线性关系。
机器学习方法展现出巨大潜力。随机森林(Random Forest)算法能有效整合环境变量、功能性状和遥感数据。深度学习(DNNs)、卷积神经网络(CNNs)则被用于从图像和声音中自动识别和监测物种,大大提升了数据处理的规模和效率。这些先进的计算方法相比传统SDMs具有更高的预测精度和可扩展性。
多模态数据整合为理解和预测植物生物多样性变化带来了前所未有的机遇,但也面临诸多挑战。主要挑战包括:数据集之间的互操作性不足、时空偏差难以消除、遥感与地面观测数据整合困难、以及数据处理和分析对计算资源的高要求。
未来发展方向包括:促进跨学科合作,融合生态学、信息学和遥感技术;加强对低分辨率历史数据与高分辨率现代数据的整合;推动标准化协议在各级平台中的实施,特别是在数据匮乏地区;充分利用机器学习和人工智能等先进计算技术,开发更强大、可扩展的分析和预测模型。通过解决这些挑战,生物多样性研究将能更好地为全球保护目标提供科学支持,应对日益严峻的生物多样性丧失危机。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号