
-
生物通官微
陪你抓住生命科技
跳动的脉搏
中国标题:中国近海区域海洋数据库(RODCCS):高质量数据助力近海缺氧与碳循环研究
【字体: 大 中 小 】 时间:2025年09月24日 来源:Scientific Data 6.9
编辑推荐:
为解决中国近海(CCS)高质量海洋地球物理和生物地球化学原位数据获取困难的问题,研究人员开发了区域性海洋数据库RODCCS。该研究整合了六个数据源的390万条数据,涵盖温度、盐度、溶解氧(DO)、营养盐和碳组分等12个关键变量,并经过六步严格质量控制(QC)。数据库采用NetCDF格式存储,结构统一、易于访问,为中国近海的模型评估、参数校准及缺氧和碳汇研究提供了可靠的数据基础,对海洋科学研究具有重要意义。
在全球气候变化和人类活动加剧的背景下,近海区域的环境问题日益凸显。中国近海(Coastal China Sea,简称CCS),包括渤海、黄海、东海以及日本海的一部分,不仅是重要的经济区域,也面临着严重的生态挑战。近年来,该区域频繁报告的夏季和秋季缺氧现象(溶解氧浓度低于2 mg L-1)以及其作为全球重要碳汇的潜力,引起了科学界的广泛关注。然而,由于海洋原位观测数据分散、质量控制标准不一,获取高质量且统一格式的数据成为模型评估和机制研究的重大瓶颈。这一数据缺失问题严重制约了我们对近海缺氧形成机制、碳循环过程及生态系统响应的深入理解。
为了应对这一挑战,由Cece Wang、Bei Su等研究人员组成的研究团队在《Scientific Data》上发表了一项研究,构建了一个全新的区域性海洋数据库——RODCCS(A Regional Ocean Database for the Coastal China Sea)。该数据库整合了来自六个国际和国内数据库的原始数据,经过严格的质量控制处理,并以统一的NetCDF格式存储,旨在为中国近海的多学科研究提供可靠、易用的数据支持。
研究团队主要采用了数据提取、质量控制(QC)和标准化存储三类关键技术。数据源自Array for Real-time Geostrophic Oceanography(Argo)、CLIVAR and Carbon Hydrographic Data Office(CCHDO)、National Earth System Science Data Center(NESSDC,包含作者未发表的叶绿素a数据)、CoastDOM、GLODAPv2和Rolling Deck to Repository(R2R)六个数据库。质量控制包括位置检查、深度检查、常量值检查、数值范围检查、垂直梯度检查和时间顺序检查六类方法,确保数据的准确性与一致性。最终数据以Network Common Data Format(NetCDF)格式存储,每个文件包含12个变量及其相应的时空属性、数据源标识和质量控制标志。
RODCCS涵盖了116°E–135°E、20°N–42°N的广阔海域,包括渤海、黄海、东海及部分日本海,数据深度从海表至6984米,时间跨度为1985年至2021年。共收集了12个关键海洋环境变量,包括温度(4,348,536条)、盐度(4,325,295条)、溶解氧(DO,4,235,725条)、硅酸盐(726,086条)、硝酸盐(745,908条)、亚硝酸盐(246,347条)、铵盐(29,526条)、磷酸盐(729,507条)、叶绿素a(Chl a,73,715条)、溶解无机碳(DIC,128,744条)、溶解有机碳(DOC,196,919条)和颗粒有机碳(POC,25,190条)。这些变量全面覆盖了物理、化学和生物地球化学过程的核心参数,为多学科研究提供了丰富的数据基础。
通过六步质量控制流程,研究发现大部分无效数据集中在位置检查环节,例如温度数据中有近150万条数据因不在研究区域内被剔除。深度检查有效识别了位于海床之上或之下的异常数据,如图3所示,在123°E和23.08°N的断面数据中,部分温度、盐度和DO数据被正确标识为无效。常量值检查发现盐度数据中存在大量连续相同值(约23万条),可能由仪器故障导致。数值范围检查采用Chauvenet准则(适用于正态分布变量如盐度、Chl a、铵和DOC)和IQR(四分位距)方法(适用于非正态分布变量如温度、DO、营养盐和碳组分),成功识别出异常高值或低值,如温度高于42.07°C或DO高于338.56 μmol/L的数据。垂直梯度检查针对温度、盐度、DO、硅酸盐、硝酸盐和磷酸盐六个变量,设定了不同水深(≤400米和>400米)的最大梯度阈值(MGV),有效检测出剖面中的突变值,如DO在浅水区的异常高梯度值。时间顺序检查发现了部分数据记录时间倒置的问题,但磷酸盐的失败率最高(2.98%),而铵、DIC、DOC和POC未发现异常。
以GLODAPv2为基准数据集,研究评估了盐度、DO、硅酸盐、硝酸盐和磷酸盐五个变量的质量控制性能。结果显示,数值范围检查的真阴性率(TNR)达到100%,表明该方法能准确识别异常数据。整体检查的真阳性率(TPR)和真阴性率(TNR)均较高,而假阳性率(FPR)较低,证明质量控制流程在保持高检测效能的同时,有效控制了误报率。
RODCCS以12个NetCDF文件发布,每个文件包含经纬度、深度、时间、数据源ID、QC标志和变量值等10个字段。数据可通过Figshare平台(https://doi.org/10.6084/m9.figshare.28532210)公开获取,配套的数据处理和质量控制代码已存储在GitHub仓库(https://github.com/BGM-USD2020/RODCCS_codes.git),便于用户重现研究过程或进行自定义分析。
RODCCS的构建不仅填补了中国近海高质量、标准化海洋数据的空白,也为相关领域的模型开发、验证与应用提供了坚实的数据基础。该数据库覆盖多个关键环境变量,并经过严格的质量控制,显著提升了数据的可靠性与一致性。在科学层面,RODCCS有助于深入解析中国近海的缺氧机制、碳汇潜力及生物地球化学循环过程,为区域环境管理和气候变化应对提供科学依据。在应用层面,数据库的开放共享将促进国内外研究团队的协作,推动海洋科学数据的互联互通与创新利用。总体而言,RODCCS是中国近海科学研究的一项重要基础设施,对未来海洋可持续发展具有深远意义。
生物通微信公众号
知名企业招聘