BenthicNet:为深度学习助力的全球海底图像大集合,开启海洋生态研究新征程

【字体: 时间:2025年02月08日 来源:Scientific Data 5.8

编辑推荐:

  随着水下成像技术发展,海底图像数据收集能力远超分析能力,且缺乏大规模统一数据集支持相关研究。研究人员开展 BenthicNet 研究,构建全球海底图像集。结果显示其能支持模型训练评估,推动海底图像自动化分析,意义重大。

  在广袤的海洋世界里,海底犹如一座神秘的宝藏库,蕴藏着无数关于地球生态的秘密。然而,随着科技的进步,我们虽然有了更强大的能力去收集海底的图像数据,但却在分析这些数据时遇到了重重困难。传统的人工分析方式效率极低,远远跟不上数据收集的速度,大量宝贵的环境信息被闲置,无法为海洋保护和管理提供有力支持。而且,现有的数据缺乏一致性和大规模性,难以满足深度学习模型训练的需求,这就像在建造高楼时缺乏坚实的基石。
为了解决这些问题,来自多个国家不同研究机构的研究人员携手开展了一项极具意义的研究 ——BenthicNet。他们的目标是构建一个全球海底图像的大集合,为海底生态环境研究提供有力的数据支撑。经过不懈努力,研究人员成功收集并整理了大量海底图像数据,最终得出结论:BenthicNet 数据集能够有效地支持大规模图像识别模型的训练和评估,初步实验表明相关模型在自动化图像分析任务中展现出了实用价值。这一成果发表在《Scientific Data》上,为海洋研究领域带来了新的曙光,有助于推动海洋生态保护和资源可持续利用的发展。

在研究过程中,研究人员采用了多种关键技术方法。首先,他们从全球范围内的众多来源获取数据,包括学术、政府和第三方公共数据存储库等。然后对收集到的数据进行严格的整理和质量控制,确保数据的准确性和可用性。针对数据标签不一致的问题,研究人员将所有图像标签转换为 CATAMI 分类方案,并映射到世界海洋物种登记册(WoRMS)分类法。对于未标记数据,采用空间下采样的方法进行处理。此外,运用自监督学习(SSL)训练编码器,并通过监督转移学习验证模型的有效性。

研究结果主要包括以下几个方面:

  • 数据收集与整理:从世界各地收集到超过 1140 万张海底图像,经过筛选和整理,形成了包含不同数据子集的 BenthicNet 数据集。其中,BenthicNet - 11M 是完整的未标记图像集合,BenthicNet - 1M 是经过空间下采样的未标记图像子集,BenthicNet - Labelled 则是包含 188,688 张标记图像和 310 万个注释的标记数据集。
  • 数据分布与环境多样性:对 BenthicNet - 1M 图像的分析发现,图像在全球的分布并不均匀,部分地区如澳大利亚海岸、挪威和格陵兰海等采样密集,而印度洋和南大西洋部分地区采样相对不足。通过与生态海洋单元(EMU)和海洋盆地的对比分析,发现图像在不同环境中的分布具有一定的代表性,但也存在一些差异,如南大西洋的代表性不足,南太平洋的代表性过高。
  • 自监督学习与模型训练:利用自监督学习方法对 BenthicNet - 1M 数据进行训练,比较了四种不同的自监督学习技术,最终选择 Barlow Twins(BT)作为代表性方法。使用 BT 训练的 ResNet - 50 模型在不同训练时长下进行实验,结果表明该模型在下游分类任务中表现良好。
  • 监督转移学习应用:通过两个监督转移学习任务验证模型的实用性。在对海底图像底物分类任务中,基于 BenthicNet - 1M 预训练的模型与在 ImageNet - 1k 上预训练的模型性能相当,且都优于从头开始训练的模型。在对德国银行 2010 年数据集的分类任务中,BenthicNet - 1M 预训练的模型表现更为出色,能够更准确地识别特定类别。

研究结论表明,BenthicNet 数据集和相关模型为海底图像的自动化分析提供了有力工具,有助于加速海洋生态环境研究的进程。然而,研究也存在一些局限性,例如数据标签的多样性和不完整性可能会影响模型的准确性,生物群落标签的不平衡问题也需要进一步解决。尽管如此,BenthicNet 的建立仍然具有重要意义,它为未来的海洋研究奠定了坚实的基础,有望推动海洋科学领域取得更多突破,助力人类更好地了解和保护海洋生态环境。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号