利用数据科学来评估印度本土淡水鱼类的分类群及其保护状况

《Science of The Total Environment》:Utilizing data science to assess native Indian freshwater fish taxa and their conservation status

【字体: 时间:2025年10月17日 来源:Science of The Total Environment 8

编辑推荐:

  印度淡水鱼类多样性及保护评估的数据科学框架研究。提出自动化数据抓取与机器学习结合的可持续评估体系,更新1239种本土鱼类清单,揭示1999-2024年间年物种发现率达18.86,东北部贡献率最高。建立ML威胁模型准确率达84%,识别栖息地退化、外来物种入侵等关键风险因素,为政策制定提供数据支持。

  印度作为全球淡水鱼类多样性第九大的国家,拥有丰富的鱼类资源,但其在更新物种清单和基于数据的鱼类多样性与保护评估方面仍存在显著不足。这些评估对于制定有效的保护政策和推动物种发现工作至关重要。本研究提出了一种可扩展的数据科学框架,旨在通过自动化数据收集、数据分析和解释,提高对印度本土淡水鱼类(Native Indian Freshwater Fish, NIFF)的多样性与保护状况的评估效率。该框架不仅能够减轻鱼类分类学家的工作负担,还能为政策制定者提供更准确和及时的决策依据。

### 研究背景与意义

印度被公认为一个生物多样性大国,尽管其国土面积仅占全球的2.4%,却拥有约8%的全球物种(Singh, 2024)。印度是四个全球生物多样性热点地区的一部分,包括喜马拉雅山脉、印缅地区、西高止山脉和东南亚的苏门答腊地区(Myers et al., 2000)。在淡水鱼类多样性方面,印度排名第九(Rao et al., 2024),因此在全球范围内具有重要的生态价值。然而,由于缺乏定期更新的国家物种清单,印度在国际上的代表性仍然不足。这不仅影响了鱼类多样性研究的准确性,也阻碍了对物种保护状况的科学评估。

鱼类分类学研究在印度有着悠久的历史,可以追溯到英国殖民时期,直到印度独立后仍然持续(Talwar and Jhingran, 1991)。印度的鱼类物种清单由印度动物调查局(Zoological Survey of India, ZSI)负责维护,最新的淡水鱼类清单包括1042种(Jayaram, 2010)。尽管最近有研究将鱼类物种总数增加到3523种(包括海洋和淡水鱼类),但这些研究并未单独列出淡水鱼类,导致淡水鱼类的分类和地理分布信息仍然不完整。此外,印度的国家鱼类遗传资源局(National Bureau of Fish Genetic Resources, NBFGR)维护了一个在线数据库(AqGRISI, 2024),记录了1273种印度本土淡水鱼类,但该数据库缺乏定期更新,使得鱼类分类和地理信息的修订滞后,进一步影响了数据的时效性和准确性。

传统的物种清单编制方法依赖于人工查阅文献和现有数据库,这不仅耗时费力,而且容易出现分类错误、同义词混淆和误识别等问题(Reyjol et al., 2007; Xing et al., 2016; Tao et al., 2023)。这些挑战在印度的淡水鱼类研究中尤为突出(Raghavan et al., 2013)。此外,自印度独立以来,鱼类清单的更新工作一直不充分,导致清单未能反映当前的地理边界变化。因此,使用过时的清单进行多样性评估可能会导致错误的决策,尤其是在缺乏新发现物种信息的情况下。

### 研究目标与方法

本研究旨在通过数据科学的方法,构建一个可扩展的框架,以提高印度本土淡水鱼类的多样性与保护评估的效率和准确性。该框架主要包括三个关键部分:(1)自动从网络资源中获取物种清单;(2)对清单进行数据分析和解释,以识别物种发现的时间趋势和地理分布;(3)利用机器学习模型进行威胁风险评估,以确定影响鱼类生存的关键因素。

首先,研究团队开发了一种自动化的数据收集工具,能够从多个在线资源中获取印度本土淡水鱼类的物种清单。这些资源包括《Eschmeyer's Catalogue of Fishes》(ECoF)、FishBase以及NBFGR的AqGRISI数据库。通过自动爬取这些资源,研究团队成功收集了1799种鱼类数据,其中包括550种重复记录。经过手动筛选和校对,最终确定了1239种印度本土淡水鱼类,并更新了其分类和地理信息。

其次,研究团队对这些数据进行了分析,以揭示印度本土淡水鱼类的多样性趋势和物种发现的时间与空间分布。研究结果显示,1999年至2024年间,印度本土淡水鱼类的年均发现率达到了18.86种,这是自1758年以来的最高发现率。其中,东北部地区贡献了最高的年均发现率,达到8.3种。这一发现表明,印度的淡水鱼类研究在近年来取得了显著进展,尤其是在东北部地区,该地区可能是未来物种发现的重点区域。

最后,研究团队利用机器学习模型对印度本土淡水鱼类的威胁风险进行了评估。通过分析影响鱼类生存的因素,如栖息地退化、外来物种入侵、土地利用变化、开发活动、过度捕捞、破坏性捕捞、污染和水资源抽取,模型成功预测了鱼类的威胁状况,并达到了84%的准确率。这一结果表明,机器学习模型在评估鱼类威胁风险方面具有较高的可行性,能够为政策制定者提供科学依据,以优先考虑对鱼类生存影响最大的因素。

### 研究成果与应用价值

本研究的成果不仅在于更新了印度本土淡水鱼类的物种清单,还在于提出了一个系统化的数据科学框架,该框架能够有效整合自动化数据收集和现代分析工具,如机器学习模型。这一框架的可重复性和可扩展性使其不仅适用于印度,还可能为其他国家的鱼类多样性与保护研究提供参考。

更新后的印度本土淡水鱼类清单为后续的保护和管理研究奠定了基础。目前,印度的鱼类清单存在许多地理上的错误,尤其是在印度独立前,部分物种被错误地归为印度本土。研究团队通过手动校对,修正了这些错误,使得清单更加准确。此外,清单中还包含了一些来自邻国的物种,如尼泊尔、斯里兰卡、泰国和缅甸,这些物种在印度的文献中被错误地记录为本土鱼类。因此,更新后的清单不仅提高了分类的准确性,还有助于厘清印度本土淡水鱼类的地理分布。

在威胁风险评估方面,机器学习模型的使用为印度本土淡水鱼类的保护工作提供了新的视角。传统的保护评估方法往往依赖于专家的经验和主观判断,而机器学习模型则能够基于大量数据,客观地识别影响鱼类生存的关键因素。这一方法不仅提高了评估的准确性,还能够为政策制定者提供科学依据,以制定更有效的保护措施。

### 研究的局限性与未来展望

尽管本研究取得了一定的成果,但仍然存在一些局限性。首先,研究团队在数据收集过程中依赖于现有的在线资源,这些资源的完整性和准确性可能会影响最终结果。其次,机器学习模型的预测能力虽然较高,但仍然需要更多的数据支持,以提高其泛化能力和可靠性。此外,研究团队在威胁风险评估中仅考虑了部分因素,未来可能需要进一步扩展分析范围,以更全面地评估鱼类的生存状况。

未来的研究可以进一步优化数据收集和分析方法,以提高物种清单的准确性和时效性。同时,可以结合更多的实地调查和专家意见,以确保数据的全面性和可靠性。此外,机器学习模型的应用可以扩展到其他鱼类群落,以评估不同地区的鱼类保护状况。这不仅有助于提高全球鱼类保护工作的效率,还能够为政策制定者提供更科学的决策依据。

本研究的成果表明,数据科学在鱼类分类学和保护规划中的应用具有巨大的潜力。通过自动化数据收集和机器学习模型的使用,研究团队不仅提高了印度本土淡水鱼类清单的准确性,还为鱼类保护工作提供了新的方法和工具。这一研究为其他国家的鱼类多样性与保护研究提供了重要的参考,尤其是在数据驱动的决策支持方面。未来,随着数据科学技术的不断发展,其在生物多样性研究中的应用将更加广泛和深入。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号