编辑推荐:
为解决生物多样性知识缺口问题,研究人员开展人工智能在生物多样性科学领域应用的研究。结果显示 AI 在多方面有应用潜力。这有助于填补知识空白,助力实现 GBF 2030 年目标,推荐科研读者阅读以了解前沿进展。
摘要
在应对生物多样性危机所需的已知知识和未知知识之间,存在着巨大且已被充分描述的差距。人工智能(AI)为填补这些知识空白提供了新的可能,但在哪些方面能够取得最大且最具影响力的成果仍不明确。迄今为止,与生物多样性相关的人工智能应用主要集中在野生动物种群的追踪和监测上。在利用人工智能构建系统发育树和物种分布模型方面也取得了快速进展。然而,人工智能在重新评估重要的生态问题方面仍有相当大的未开发潜力,尤其是那些需要整合不同且本质上复杂的数据类型(如图像、视频、文本、音频和 DNA)的问题。本综述描述了人工智能目前以及未来在解决七个明确界定的生物多样性知识缺陷方面的应用。基于人工智能的改进建议包括重新利用现有图像数据,以及开发新的范式,包括通过协作生成可检验的新假设。由此带来的生物多样性知识扩展,可能会推动从基因到生态系统的科学进步,这些进展有望助力实现《全球生物多样性框架》中即将到来的 2030 年目标。
引言
生物多样性对人类福祉至关重要,但正受到越来越大的威胁。生物多样性具有复杂性、尺度依赖性,难以测量且充满不确定性。与大气温室气体浓度和气候变化之间相对简单的因果关系不同,生物多样性的情况更为复杂。生态学和保护领域面临的重大挑战是回答以下关键问题:地球上有多少物种?哪些种群数量在下降?哪些区域是必须保护的?何时会达到生态阈值?如何才能最好地实现《昆明 - 蒙特利尔全球生物多样性框架》(GBF;
https://www.cbd.int/gbf) 中设定的 2030 年全球生物多样性目标?为什么当代物种灭绝速度超过自然灭绝速度?为了利用当前全球对自然保护的关注势头,需要对这些及其他问题给出充分的答案。
不幸的是,尽管收集了大量数据,但几乎所有的全球生物多样性框架目标和指标都缺乏必要信息,这些信息对于建立基线和监测进展至关重要。自 20 世纪 80 年代以来一直存在的偏见,导致保护工作反复聚焦于相同的分类群,而这些分类群(与直觉相反)并不总是面临最高风险的物种。总体而言,世界上只有一小部分地区的生物多样性得到了充分描述,现有数据偏向于常见物种和北半球的人口密集地区。许多物种除了名称和栖息地外,人们对其了解甚少。关于特定物种的功能、物种形成方式以及在群落中的相互作用等信息往往缺失,尤其是海洋物种。这些知识缺陷涵盖了从分类学到物种相互作用的多个方面,并已被归纳为全球生物多样性知识的七个明确缺陷,这些缺陷以可衡量的方式体现了生物多样性的广度和复杂性。克服这些缺陷对于计算关键生物多样性变量、实现所有基于生物多样性的全球生物多样性框架指标,以及应对生物多样性面临的最紧迫挑战(从获取详细的实地知识到了解国家层面的生物多样性趋势)至关重要。
生态学家和保护研究人员需要利用《全球生物多样性框架》带来的全球对生物多样性保护前所未有的关注和协调,以及新兴技术,如人工智能(AI),尤其是数据驱动的机器学习(ML),来处理多样且迅速扩展的数据集。一个悬而未决的问题是如何充分利用这些技术。迄今为止,人工智能技术和方法在生态学和进化领域的快速发展,主要集中在少数保护主题(其他地方有相关综述 )和数据收集应用上,如生物声学、相机陷阱、卫星图像和遥感。关于人工智能在生物多样性丧失中的应用以及面向生态学家的人工智能方法的综述已经发表。本综述探讨了人工智能如何解决生物多样性科学更广泛领域中的关键知识差距,这些领域涵盖空间尺度、基因、功能、系统发育和物种相互作用。需要注意的是,由于人工智能发展极为迅速,本综述中引用的许多文献目前仅以非同行评审的形式(会议论文集或预印本)存在。
在本综述中,研究人员阐述了七个生物多样性知识缺陷的现状,讨论了如何利用人工智能解决这些问题,并确定了人工智能在弥合剩余差距方面最具潜力的领域(图 1)。在人工智能方法尚未用于解决所有七个生物多样性知识缺陷的情况下,研究人员建议了一些研究方向,将每个缺陷的需求与特定的人工智能解决方案相匹配,并将每个解决方案置于从数据插补、分析到保护决策的所需步骤中。最后,研究人员对人工智能技术的实际局限性进行了批判性分析;尽管基础模型(包括分子模型、细胞模型和生物模型 )的扩散与生成式人工智能相结合,有望减少所有生物多样性知识缺陷,但人工智能并非万能的。
分类学描述
林奈缺口(Linnaean shortfall)是指地球上物种的实际数量与已被正式描述的物种数量之间的差距。这一缺口可以说是最基础的,因为生态学、进化论和保护学的几乎每个领域都依赖于对物种的命名和编目来评估生物多样性。对于未知存在的物种,人们无法进行深入了解。
挑战
林奈缺口的大小难以确定,因为估计这一缺口的大小需要统计已描述物种的数量,并估算未描述物种的数量,而这两个过程都存在不确定性。据估计,地球上约有 870 万种真核生物,目前已描述的现存物种约为 200 万种,但具体估计差异很大。一般来说,林奈缺口的大小被认为随着生物个体的减小和复杂性的降低而增大,并且会随着地理区域以及其他各种特征而变化(见华莱士缺口)。尽管林奈缺口具有基础性,且目前全球物种灭绝风险加剧,但自 21 世纪以来,新命名物种的数量并未增加。事实上,分类学是一个资金严重不足的科学学科,自身也面临着消亡的威胁。
人工智能过去和未来的作用
到目前为止,人工智能主要通过两种方式来缓解林奈缺口:估算分类单元的总数,以及在现有数据集中识别新的分类单元(图 1)。利用人工智能自动识别先前未描述的分类单元是一项很有前景的工作,这可以通过在现有图像、DNA 样本或声学记录中识别新分类单元,并利用能够指示尚未发现的分类单元存在的方法(如 DNA 或声学分析)来实现。
在原始传感器数据中已经发现了新的分类单元,包括通过 DNA 条形码和公民科学图像。图像分类模型 BioCLIP 和 BIOSCAN-CLIP 并非专门用于确定新物种,但可以分别通过与已知模板图像或 DNA 序列关联,来标记可能的新物种示例。WildCLIP 专注于检索显示动物或其环境某些属性的图像,可用于查询各种数据集。尽管这些方法目前仍处于实施的早期阶段,但它们为融入机器学习子领域的开放世界分类和类别发现技术提供了巨大潜力,这些技术涉及在可能包含已知和未描述类别的未标记数据集(如图像库)中识别新类别(如物种)。
展望未来,人工智能工具可能会专门用于促进物种发现的任务。例如,一旦识别出一个新物种(无论是通过人工还是人工智能辅助发现方法),人工智能视觉 - 语言模型可以帮助分类学家挑选并描述其独特特征,从而撰写物种描述。这些方法可以借鉴与 BioCLIP 或 BIOSCAN-CLIP 中使用的物种检测算法相结合的可解释人工智能技术。其他算法可以推荐在何处、何时以及如何寻找新物种:例如,受主动学习启发的方法可以确定某些分类群多样性存在高度不确定性的区域。这一过程形成了一个主动学习反馈循环(图 1),在这个循环中,人类和算法提出的假设都得到验证,结果用于训练性能更优的算法。预计这种主动学习过程将在未来全球监测网络的设计中发挥重要作用。因此,人工智能的贡献不仅可能提高物种发现和描述的速度,还能提升当代和未来分类学家的工作效率。
物种数量估计和分布模式
普雷斯顿缺口(Prestonian shortfall)指的是对物种数量及其在空间和时间上的变化趋势缺乏了解。除了准确估计物种数量对种群生物学和进化的重要性外,物种数量的知识对于确定物种的保护状态和预测其灭绝风险也至关重要。然而,解决普雷斯顿缺口是一项艰巨的挑战,因为这需要统计(或估算)在特定时空点上某一物种所有个体的数量。
挑战
从数据角度来看,测量特定种群的真实数量需要对定义的空间和时间窗口内的所有相关物种个体进行详尽的普查。即使对于相对有魅力、易于发现且研究充分的分类群,如鸟类或大型哺乳动物,这项艰巨的工作也很少能完成。作为一个显著的例外,热带森林科学中心(CTFS)的森林全球地球观测站(GEO)设立了专门的森林样地,用于测量热带树木物种的真实数量。然而,即使对于固定且描述相对充分的树木物种,进行这样的普查也需要巨大的努力。
作为全面普查的实际替代方法,可以从整个种群中抽取具有统计代表性的个体样本,来估计物种数量及其时空趋势。这种方法的主要挑战是准确估计种群中未被采样的个体数量,这需要在空间或时间上进行重复采样。存在两种主要的种群估计模型:标记模型,即对特定个体进行标记,以便在重复调查中重新识别;未标记模型,即只对个体进行计数,但无法识别为特定的(重新发现的)个体。对于某些应用来说,多个物种的相对数量或物种间相对数量的趋势可能就足够了,并且通常可以从计数数据中推断出来。
值得注意的是,尽管公民科学数据的激增和数字化博物馆标本的可用性,为记录物种在其分布范围内的存在做出了重要贡献(如华莱士缺口中所讨论的),但这些未标记的数据来源通常不能直接测量物种数量,并且在空间和时间上可能过于稀疏,无法支持可靠的数量估计。
人工智能过去和未来的作用
迄今为止,基于人工智能的传感器数据分析(如相机陷阱图像和声学记录)已被用于缓解普雷斯顿缺口,通过生成未标记数据用于统计数量估计。例如,从重复采样得到的占用率估计和基于鸟鸣自动分类的检测时间模型产生的物种数量估计,与传统的人工调查结果相似。自动分类还可以与传感器网格(如声学记录器)相结合,生成声源的高分辨率地图,用于估计发声物种的数量。
人工智能已经通过提高人类专家识别收集图像中特定个体的效率,减少了许多物种的普雷斯顿缺口,这有助于以非侵入性的方式标记估计物种数量。这项工作始于 1990 年基于计算机视觉的首个重新识别方法的发表。早期尝试使用从低级特征和几何形状衍生的统计模式识别。如今,利用深度学习在人员重新识别方面的进展已应用于各种物种的动物图像,并在重新识别方面取得了显著改进,特别是在评估由人类专家拍摄的高质量、聚焦清晰的单个个体图像时。
能够识别单个生物体(而不仅仅是其物种身份)的人工智能方法,有望通过将被动传感器获得的数据用于标记数量模型,进一步缓解普雷斯顿缺口。然而,要提高基于计算机视觉的重新识别对低质量图像(如相机陷阱数据中拍摄的图像)的适应性,仍有许多工作要做。此外,这些方法可以扩展到包括更多的数据模式,如视频、无人机或无人驾驶飞行器记录以及音频文件。野生动物种群监测的人工智能应用(如 Wildbook;
https://www.wildme.org/wildbook.html)也将从 “开放集挑战” 的进展中受益,该挑战不仅涉及自信地识别从未见过的个体,还包括随着时间的推移识别和匹配新个体的目击记录。研究人员预计,在将专家纳入参与式和迭代式人机系统方面也将取得进展,以减少得出数量估计所需的专家投入,并提高对分类错误的抵抗力,例如将多个个体的图像归为单个识别,或将单个个体的图像拆分为多个识别。
从长远来看,需要进行大量开发工作,使计算机视觉系统能够有效地识别没有明显生物特征标记的个体,并在标记随时间变化时识别同一个体。这些改进可能涉及从行为、步态或发声中识别特定个体,或整合其他模式,如高光谱成像或环境 DNA(eDNA)分析。从物种行为的机制研究中获得的其他生物学属性和背景信息,如社会互动、种群动态和领地信息,也可以整合到重新识别系统中。此外,需要开展关于统计数量估计的跨学科研究,例如开发考虑人工智能模型连续值置信度分数的估计方法,或利用混合粒度的物种识别数据,其中一些目击可以在个体层面识别,而另一些只能在种群的一小部分中可靠识别。
与在图像数据库中应用基于人工智能的分析方法数十年的经验相比,将这些方法应用于野外收集的声学和其他数据类型仍处于起步阶段。计算机视觉的进展可能会推动大规模群体空中普查方法的改进,这可以借鉴现有用于准确统计人群中个体数量的方法。环境 DNA 数据的日益丰富,特别是通过现场可部署的测序技术获得的数据,为物种数量估计提供了另一个潜在途径。然而,由于存在影响 DNA 持久性和检测的复杂环境因素,将环境 DNA 浓度转换为可靠的数量估计仍然具有挑战性。人工智能方法可以通过考虑这些环境因素,并整合其他传感器类型收集的环境 DNA 数据,使从环境 DNA 浓度得出的估计更加可靠。最后,研究人员指出,本节中描述的由人工智能支持的物种数量估计方法通常只能提供某个时间点的单一快照。在利用人工智能进行时间序列预测和理解种群变化驱动因素方面取得进一步进展,包括通过基于过程的和知识引导的种群动态机器学习模型,预计将进一步有助于减少这一缺口。
生物地理物种分布
华莱士缺口(Wallacean shortfall)指的是缺乏关于物种生物地理分布的详细信息。物种分布的记录可追溯到 19 世纪初,是生物多样性科学中最古老的研究领域之一。此外,华莱士缺口几乎影响到生态学的每个子领域,包括理解气候变化对生物多样性的影响以及重建历史物种形成事件。准确的物种生物地理分布数据对于保护至关重要,因为物种分布范围大小是预测灭绝风险的最佳指标之一,也是确定濒危状态的主要标准之一。生物地理物种分布的知识对于绘制物种、生物多样性热点地区和生态系统服务地图也至关重要。这些信息直接为几个重要的生物多样性指标提供数据,如物种保护指数。
挑战
解决华莱士缺口在原则上相对简单,因为可以通过简单的出现数据来填补,这些数据越来越多地来自众包项目,如 iNaturalist。然而,尽管全球生物多样性信息设施(GBIF;
https://www.gbif.org/)现在包含超过 30 亿条记录,但这些数据偏向于陆地地区、某些分类群(尤其是受欢迎的鸟类)、北半球以及距离道路 1.0 公里以内的地点。从特定分类群来源(包括保护指南和濒危评估)得出的专家物种分布范围地图,也为许多分类群提供了分布信息,但这些地图往往缺乏用于保护应用(如估计物种 - 栖息地关系)所需的详细程度。
人工智能过去和未来的作用
人工智能填补华莱士缺口最有前景的方法之一,是处理从传感器阵列收集的原始数据(图 1)。高分辨率卫星和航空遥感、固定图像采集、声学传感和环境 DNA 分析等技术,越来越多地用于为覆盖不足和 / 或难以到达的地区提供物种数据。这些创新已经带来了令人惊讶的发现,如帝企鹅的新栖息地,以及诸如在偏远地区监测鲸鱼的进展。物种出现信息也可以从非目标声学记录、众包科学平台(如 iNaturalist)上的图像和社交媒体帖子中提取。
填补华莱士缺口的第二项主要且整合良好的工作,涉及使用物种分布模型(SDMs)来插补缺失数据。用于从环境或栖息地数据预测物种空间分布的物种分布模型,迅速采用了机器学习技术,如提升回归树。现代物种分布模型现在开始纳入更强大的机器学习技术,这些技术可以处理与多种数据类型的复杂相互作用,如遥感土地覆盖类别和连续的局部气候测量。基于人工智能的统计模型集成是分析多模态数据集的更强大工具,可以处理多种类型的物种出现数据 —— 例如,仅存在的社区科学数据、存在 - 不存在样地数据和遥感图像(方框 1)。标准化协议和竞赛的发展,如 GeoLifeCLEF(ImageCLEF(
https://www.imageclef.org/)中的几个挑战之一,即评估论坛(CLEF)跨语言图像检索赛道),正在将人工智能辅助的物种分布模型的成功扩展到其他用于预测生物多样性指标的宏观生态模型,如物种丰富度。
然而,要在原始数据收集和数据合成方面取得有意义的进展,仍有许多挑战需要解决。人工智能辅助方法有潜力通过主动学习方法,针对严重采样不足的地区(如深海)和分类群(如真菌),减少已知的数据缺口,这些方法可以优化来自原位传感器网络和社区科学家的未来数据采集。极端边缘计算方法越来越多地将人工智能应用于传感器本身,以智能相机陷阱和声阵列的形式实现自动和自适应数据收集。还需要先进的技术进行空间偏差校正,改进基于充分采样物种的未充分采样物种模型,以及对群落组合和周转进行建模。这些方法的开发需要生态统计学家和人工智能研究人员的跨学科合作。尽管多模态数据集(如整合相机陷阱和社区科学数据的数据集)已经证明有用,但未来的工作可以通过使用能够有效编码空间变化数据表示的模型,解决与分析大型遥感数据集相关的计算挑战,这些模型对许多下游任务都很有用。最后,在可能的情况下,应使用一流的、经过专家验证的评估数据集,严格量化人工智能方法在估计物种空间分布方面的效用。创建这样的 “黄金标准” 数据集具有挑战性,但值得生物多样性领域关注。
非生物耐受性和基础生态位
哈钦森缺口(Hutchinsonian shortfall)指的是对物种对非生物条件(包括温度、降水、土壤、水和地形)的耐受性缺乏了解。这一系列非生物耐受性通常被称为格林内尔基础生态位(Grinnellian fundamental niche),被认为是物种能够生存的多维环境空间。非生物耐受性的知识在气候变化背景下尤为重要,因为快速变化的非生物条件导致物种的实际分布与耐受性之间的不匹配,对保护工作构成威胁。减少哈钦森缺口可以改善对气候变化下种群轨迹和分布范围变化的预测。
挑战
关于物种耐受性的信息主要来自两个方面:通过对生物体的研究获得的生理数据,以及实地观察得到的出现数据。在野外或实验室实验环境中收集的生物体生理数据,可用于生成模型,以描绘给定生物体在不同非生物条件下的性能曲线。这些数据获取难度大,且仅存在于