OHID-1:开启高光谱图像多分类研究新征程的大型数据集

【字体: 时间:2025年02月13日 来源:Scientific Data 5.8

编辑推荐:

  在大数据和深度学习盛行的当下,为解决现有高光谱图像(HSI)数据集的局限,研究人员构建 OHID-1 数据集。实验表明其分类难度大,能推动 HSI 分类算法发展,对城市可持续发展等研究意义重大。

  在科技飞速发展的今天,大数据范式和深度学习技术广泛应用于各个领域,高光谱遥感也不例外。高光谱遥感凭借其众多窄光谱带,能为每个波段提供完整图像,相比传统仅含 RGB 三个波段的遥感技术优势显著。它可以更精准地进行地面物体分类,通过高光谱分辨率,能轻易检测出物体外观和边界的细微差异;在化学成分分析方面表现出色,利用特定的光发射和吸收特征,能准确识别各种材料;还可进行差异分析,不同波段图像间的差异蕴含着丰富信息;在定量分析时,窄光谱带能有效减少噪声,克服干扰。因此,高光谱图像在农业分析、天气预报、土地和海洋资源测绘等诸多领域都有重要应用。
然而,高光谱图像的像素分类面临着挑战。分类需要用标记数据训练模型,通过调整内部权重让模型学习每个标签的数据特征,直至训练集的总体误差最小化。这一过程计算量巨大,不过近年来计算能力的提升使该方法得以广泛应用。同时,深度神经网络(DNNs)在许多复杂任务中表现出色,但它高度依赖合适的标记数据集。目前虽有不少遥感图像数据集,但现有开源高光谱数据集存在诸多问题。比如部分经典数据集数据量较小,常用于传统算法或浅层 DNNs,而浅层 DNNs 学习能力有限,泛化性能不佳,难以满足实际应用需求;而且分类模型的泛化能力需要在不同场景和数据集上测试,现有数据集却无法满足这一要求。

为了突破这些困境,来自重庆第二师范学院数学与大数据学院、青岛科技大学数据科学学院等机构的研究人员开展了一项重要研究。他们利用珠海欧比特宇航科技股份有限公司的数据,构建了一个全新的大型高光谱图像数据集 ——Orbita Hyperspectral Images Dataset-1(OHID-1),相关研究成果发表在《Scientific Data》上。

研究人员为开展此项研究,运用了多种关键技术方法。数据采集方面,利用 “珠海一号” 高光谱卫星(OHS)星座进行数据收集,该卫星采用推扫式扫描成像技术,具备高空间分辨率(10m)和高光谱分辨率(2.5nm),波长范围在 400 - 1000nm。数据处理过程中,使用 ENVI 软件进行辐射校准、大气校正、几何校正和正射校正,确保数据的准确性和可用性。此外,研究人员还选取了 11 种常见的公开高光谱数据集与 OHID-1 进行对比分析,并运用 8 种深度神经网络(DNNs)和传统方法(SVM)对 OHID-1 进行分类实验,以评估不同算法在该数据集上的性能。

下面详细介绍研究结果:

  • OHID-1 数据集概况:OHID-1 数据集包含 10 幅高光谱图像,每幅图像有 32 个光谱带,大小为 512×512 像素,涵盖 7 种类型的地物,分别是建筑物、农田、森林、道路、水体、裸地和鱼塘。数据存储于 Figshare 和百度网盘,包括原始数据、数据集、预处理代码和分类算法代码等。
  • 数据标注:研究人员通过获取高分辨率航拍图像作为参考,并借助 GPS 定位进行实地调查来确保标注的准确性。对于易区分的地物,如建筑物、道路等,直接参考航拍图像进行标注;对于变化较快的地物,如裸土、鱼塘,则使用无人机实地勘察并匹配坐标。数据集中存在多类别且数据不均衡的情况,水体和道路占比超一半,裸地和鱼塘占比均不到 2%,这给后续的 HSI 分类任务带来挑战。
  • 数据集质量评估:研究人员选取了五个参数来评估 OHID-1 数据集的质量。未控定位精度方面,利用 CE90 评估,确保误差小于 500m;控定位精度上,选取合适数量和分布的控制点,保证误差小于 3 像素;全波段图像配准精度要求绝对和地理定位误差小于 3 像素;相对辐射校准误差精度控制在小于 3%;信噪比(SNR)在 25 - 40 分贝范围内。
  • 算法实验结果:研究人员使用 8 种 DNNs 和 SVM 在 OHID-1 数据集上进行实验,随机选取每个类别的 500 个样本作为训练集,其余作为测试集。训练 DNNs 时,采用 Adam 优化器和交叉熵损失函数,对数据进行归一化处理,设置学习率为 0.0001,批量大小为 64,训练 200 次,并在特定轮次调整学习率。实验结果显示,大多数方法在 OHID-1 上的性能相较于其他数据集有所下降,表明 OHID-1 对当前 HSI 分类方法来说标注难度更大,但也为 HSI 分类的进一步发展提供了基础。其中,HyLITE 架构利用变压器产生的分类图更平滑、准确。

综合研究结果,研究人员得出结论:OHID-1 数据集凭借其丰富的光谱多样性和高空间分辨率,为现有 AI 算法带来了显著的分类挑战,这意味着在开发更准确、强大的分类模型方面还有很大的提升空间。同时,该数据集不仅可用于高光谱图像分类,还能测试通用的多分类算法,在计算机视觉任务如超分辨率重建中也有应用潜力。此外,OHID-1 数据集在城市可持续发展科学、土地利用分析等领域具有重要价值,能为相关研究提供有力支持。然而,OHID-1 数据集也存在一定局限性,如地形标签未涵盖沙漠、冰川、湿地等珠海地区不存在的地形,且 10m 的分辨率更适合大范围信息调查,对局部细节信息的获取能力有限。

总体而言,这项关于 OHID-1 数据集的研究具有重要意义。它为高光谱图像分类领域提供了新的研究方向和数据集支持,推动了相关算法的发展。研究结果有助于提升人们对高光谱图像分类的理解和应用能力,在环境监测、资源管理、区域规划等实际应用中发挥积极作用,为实现可持续发展目标提供科学依据和技术支撑。未来,研究人员计划进一步扩展 OHID-1 数据集(OHID-2),增加数据容量、类别标签,覆盖更多地区,并开发更高效准确的分类和检测算法,以满足日益多样化的应用需求。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号