环境变量与丝异须虫栖息地密度关联研究:基于数据填补与机器学习的生态预测模型
【字体:
大
中
小
】
时间:2025年10月11日
来源:Regional Studies in Marine Science 2.4
编辑推荐:
本研究针对海洋底栖生态数据缺失问题,结合多种数据填补方法与机器学习模型,系统分析了环境变量对丝异须虫(Heteromastus filiformis)栖息地密度的影响。研究人员通过人工神经网络(ANN)与站点相关特征填补(SCF)方法,实现了对栖息地密度的高精度预测(WMAE=0.865,WACC=0.631),并发现盐度与水深同步增加对其栖息具有最强负面影响。该研究为海洋生态评估提供了可靠的数据处理与建模框架,对气候变化背景下的底栖生物保护具有重要指导意义。
海洋底栖无脊椎动物作为生态系统健康的重要指示生物,其分布与丰度受到多种环境因素的复杂影响。然而,由于采样限制、传感器故障等因素,环境数据集常存在缺失值问题,给深入分析环境扰动事件的影响带来巨大挑战。丝异须虫(Heteromastus filiformis)作为一种广泛分布于韩国沿岸水域的多毛类蠕虫,在底栖生态系统中具有重要生态功能,但其栖息地密度与环境变量之间的多因素耦合关系尚未明确。为此,研究人员在《Regional Studies in Marine Science》上发表论文,通过结合数据填补与机器学习方法,系统研究了环境变量对丝异须虫栖息地密度的影响。
为开展本研究,团队利用了2015–2021年间在韩国海峡、黄海和东海155个站点采集的36个环境变量的季节观测数据,共包含1874个样本。在数据预处理中,首先排除了缺失率超过20%的11个变量,保留25个变量进行后续分析。针对数据缺失问题,研究人员尝试了多种填补方法,包括全局均值填补(GMI)、站点均值填补(SMI)、时间序列多项式回归、特征相关方法(包括全局相关特征GCF和站点相关特征SCF)以及空间均值方法。此外,为解决栖息地密度数据的右偏分布问题,引入了替代变量ρ+ = ln(栖息地密度 + 1),使其更符合机器学习模型的正态分布假设。在机器学习建模方面,研究比较了支持向量回归(SVR)、决策树回归、LightGBM回归以及人工神经网络(ANN)等多种模型,并以加权平均绝对误差(WMAE)和加权准确率(WACC)作为评估指标。
3.1. 数据填补
通过对比不同填补方法,研究发现基于支持向量回归(SVR)的全局相关特征(GCF)方法在多数环境变量上表现出较低的填补误差,但其性能并未直接转化为对目标变量ρ+的最佳预测效果。
3.2. 栖息地密度概率分布
栖息地密度数据较好地符合伽马分布,其概率密度函数(PDF)通过形状参数k和尺度参数θ进行描述,其中k = σ2/M2,θ = σ2/M。替代变量ρ+的引入有效改善了数据的对称性,更适用于机器学习建模。
3.3. 机器学习模型
在多种机器学习模型中,人工神经网络(ANN)结合站点相关特征(SCF)填补方法和16个特征选择后表现最佳,其结构包括输入层(16神经元)、三个隐藏层(100、40、20神经元)及输出层(1神经元),使用ReLU激活函数和Adam优化器进行训练。
3.4. 误差与精度分析
以WMAE和WACC作为模型评估指标,ANN模型在结合SCF填补和特征选择后,达到了0.865的WMAE和0.631的WACC,显著优于其他模型。
4. 结果与讨论
研究发现,沉积物中的分选系数和粉砂含量与丝异须虫栖息地密度呈正相关,而盐度、水深、颗粒有机氮(PON)、颗粒有机碳(POC)和总有机碳(TOC)则呈现负相关。通过敏感性分析,团队进一步模拟了环境变量变化对ρ+的影响:在有限变化场景下,营养盐相关变量的负面影响减弱,而砾石和总叶绿素a(Chl-a(total))的正效应更为明显;在显著变化场景下,盐度与水深的同步增加对ρ+的负面影响最为显著。这一结果提示,气候变化导致的盐度升高和海平面上升可能对丝异须虫的栖息地产生严重不利影响。
研究结论表明,机器学习方法特别是人工神经网络,在处理高维环境数据和预测底栖物种分布方面具有显著优势。通过数据填补和特征选择,模型能够更准确地捕捉环境变量与生态响应之间的复杂关系。该研究不仅为海洋底栖生态系统的评估提供了方法论支持,也为未来环境管理和生态保护政策的制定提供了科学依据。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号