基于改进深度学习方法的瑞典真菌红色名录评估——解决数据不平衡问题的创新途径

《Ecological Indicators》:Estimating national Red List statuses for fungi in Sweden - An improved deep learning approach to account for unbalanced data

【字体: 时间:2025年10月26日 来源:Ecological Indicators 7.4

编辑推荐:

  本刊推荐:为解决真菌物种红色名录评估覆盖率不足的问题,研究人员开展了一项利用改进深度学习模型估算瑞典真菌国家红色名录状态的研究。通过应用类别权重和过采样技术解决数据不平衡问题,并使用平衡精度作为评估指标,该研究成功对1445种未评估真菌进行了预测,识别出661种潜在受威胁物种,将受威胁真菌总数翻倍,为优先开展保护行动和人工评估提供了重要数据驱动依据。

  
真菌王国是地球上最丰富多样的生命形式之一,估计物种数量在150万到1320万之间,然而目前仅有不到15万个物种被正式描述,这仅仅是其真实多样性的冰山一角。与许多其他生物类群一样,真菌也面临着栖息地丧失、土地利用变化和气候变化的严重威胁。尽管红色名录评估在保护优先排序中发挥着至关重要的作用,但全球范围内,仅有794种真菌被世界自然保护联盟(IUCN)评估了灭绝风险,而在国家层面,例如瑞典,已知真菌物种中也只有约40%被赋予了官方的灭绝风险状态。这种巨大的评估缺口严重阻碍了针对性的真菌保护工作。
造成这种评估缺口的主要原因是传统的人工红色名录评估过程极其耗时耗力,需要大量的数据和专业知识。为了应对这一挑战,自动化估算物种灭绝风险的方法应运而生。其中,IUCNN R包所实现的深度学习方法是目前较为先进的一种,它利用从物种出现数据中提取的环境特征来预测灭绝风险。然而,这种方法面临着一个普遍且棘手的难题:数据不平衡。在红色名录数据中,大多数物种通常被列为无危(LC),导致训练数据中各类别物种数量分布极不均衡,这使得模型容易产生偏向于预测多数类(即LC)的偏差,从而难以准确预测近危(NT)、易危(VU)和濒危(EN)等中间受威胁类别。
发表在《Ecological Indicators》上的这项研究,旨在改进IUCNN框架,专门针对国家层面的红色名录状态预测,并重点解决数据不平衡问题。研究人员以瑞典的真菌为案例,整合了全球可用的环境特征以及瑞典特有的高分辨率环境数据(如树高、生物量、泥炭深度等),以期更精细地刻画物种的生态位。研究的主要目标有三个:一是为瑞典未评估的真菌物种提供灭绝风险估算;二是首次在国家层面应用IUCNN模型,并评估瑞典特有环境特征的重要性;三是通过使用平衡精度等更合适的指标和方法来解决类别不平衡问题,从而提升模型的预测能力,特别是对中间受威胁类别的识别精度。
为了开展这项研究,研究人员首先从瑞典物种信息中心(Artdatabanken)获取了瑞典真菌物种清单及其红色名录状态,并从全球生物多样性信息机构(GBIF)下载了瑞典境内的真菌出现记录。经过严格的数据清洗(包括去除重复记录、坐标不确定性大于1公里的记录、以及使用CoordinateCleaner R包清除可疑坐标点),最终保留了320多万条记录,涉及4696个物种,其中3214个物种有已评估的灭绝风险状态,用于模型训练。研究人员为每个物种生成了33个特征,包括出现次数(n_occ)、分布区(EOO)、占有面积(AOO)等地理分布特征,以及从每个出现点周围2公里×2公里范围内提取的环境特征(如年均温、年降水量、海拔、归一化植被指数NDVI、人类影响指数HII及其各组分、森林生物量、树高、土壤湿度和泥炭深度等)。对于HII、NDVI和海拔,还计算了其标准差以表征生境异质性。所有特征值都进行了归一化处理,并剔除了存在缺失数据的物种。
模型构建基于TensorFlow库,采用全连接神经网络。为了应对数据不平衡问题,研究测试了三种方法:基线(无调整)、类别权重(在损失函数中为少数类别赋予更高权重)和过采样(使用SMOTE技术使所有类别的样本数相等)。同时,比较了两种模型训练早停准则:常规精度和平衡精度。研究人员通过五折分层交叉验证来评估不同模型架构(不同隐藏层数、节点数、丢弃率和批次大小组合)的性能,并使用F1分数、马修斯相关系数(MCC)、常规精度和平衡精度等指标进行综合评估。
研究结果显示,使用平衡精度作为早停准则,并结合过采样或类别权重方法,能够显著改善模型对中间受威胁类别(NT、VU、EN)的预测性能,减少了对多数类(LC)的预测偏差。其中,过采样方法结合平衡精度早停准则的表现最佳,其五分类模型的平衡精度达到0.39,而将预测结果转换为受威胁/非受威胁的二分类后,平衡精度大幅提升至0.76。这表明简化分类任务有助于提高预测可靠性。利用最佳模型对1445种未评估真菌进行预测,五分类模型预测出821种为LC,235种为VU,206种为EN,166种为NT,17种为CR,使得被列为EN的真菌物种数量增加了一倍以上。二分类模型则识别出458种潜在受威胁物种,使瑞典受威胁真菌的总数增加了近50%。特征重要性分析表明,来自人类足迹的人口密度指数最大值是最重要的预测特征,其次是EOO、AOO以及瑞典特有的树高最大值等特征,说明人类活动压力和地理分布范围是预测真菌灭绝风险的关键因素。敏感性分析显示,模型对于出现记录极少的物种预测性能较低,但对于有适度采样密度的物种,预测性能不受采样偏差的显著影响。
在讨论部分,作者强调了本研究在方法学上的重要改进。通过采用平衡精度作为模型选择和早停准则,并应用过采样等技术有效缓解了数据不平衡问题,提升了对受威胁物种的识别能力,克服了原IUCNN模型的一个主要局限。整合国家层面的高分辨率环境特征(如来自激光雷达LiDAR的树高和生物量数据)为模型提供了更精细的生境信息,有助于提高预测精度。尽管模型的绝对精度仍有提升空间,并且无法替代专家的人工评估,但其产生的数据驱动的“最佳估计”可以作为一种有效的筛查工具,帮助标记出需要优先进行详细评估的潜在受威胁物种,从而优化保护资源的分配。作者指出,真菌保护面临诸多挑战,包括其隐蔽性、与宿主生物的共生关系以及对环境变化的敏感性。未来,随着环境DNA(eDNA)技术和公民科学提供的出现数据日益丰富,有望将更多数据匮乏的真菌物种纳入评估范围。本研究识别出的大量潜在受威胁真菌物种,为瑞典乃至全球的真菌保护工作敲响了警钟,并指明了优先关注的方向。最终,真菌的保护与更广泛的生态系统管理,特别是古老森林的保护息息相关,需要综合考量土地利用变化、气候变化等多重压力因素。
综上所述,这项研究不仅为瑞典大量未评估真菌物种提供了首个灭绝风险估算,极大扩展了该国真菌红色名录的知识基础,更重要的是为基于深度学习的自动化红色名录评估方法提供了重要的方法论改进,特别是在处理普遍存在的数据不平衡问题方面。其研究框架和结论对于在其他国家、地区以及其他类群中应用类似方法具有重要的借鉴意义,为推动大规模、快速、数据驱动的生物多样性评估与保护优先区划定提供了有力工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号