
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于回归模型的小样本不平衡数据下海南粗榧叶片氮浓度无损估测研究
【字体: 大 中 小 】 时间:2025年07月19日 来源:Smart Agricultural Technology 6.3
编辑推荐:
推荐:针对濒危树种海南粗榧(Cephalotaxus hainanensis)叶片氮浓度(LNC)检测难题,研究人员结合计算机视觉与机器学习,通过LASSO特征选择、对数变换及SMOGN/ADASYNR重采样技术处理小样本不平衡数据,构建SVR和XGBoost回归模型。ADASYNR-SVR模型在罕见样本预测中表现最优(F1-score 0.83),为濒危植物营养监测提供非破坏性解决方案。
在热带植物保护与精准农业领域,濒危树种的营养监测长期面临两难困境:传统破坏性检测会加剧物种衰退,而现有无损方法又难以应对样本稀缺和数据失衡的挑战。以中国特有濒危药用树种海南粗榧(Cephalotaxus hainanensis)为例,其野生种群因栖息地退化、种子资源枯竭已濒临灭绝,人工培育中亟需精准的氮营养管理方案。尽管叶片颜色能直观反映植物氮状态,但常规化学分析会破坏样本,手持式叶绿素仪又无法捕捉空间异质性。更棘手的是,这类濒危物种的实验样本往往呈现"左偏分布"——健康植株数据占优,而处于营养胁迫状态的"稀有样本"获取困难,导致回归模型在关键异常值预测上表现欠佳。
针对这一系列难题,海南省林业科学研究院的研究团队在《Smart Agricultural Technology》发表创新研究,首次将分类任务中的不平衡处理技术引入回归分析,开发出融合图像特征工程与自适应采样的LNC预测体系。研究人员通过三阶段实验设计:首先利用ExGR指数结合Otsu阈值法实现叶片精准分割,从RGB/HSV/CIELAB空间提取18项颜色特征,基于GLCM算法获取13项纹理特征;随后采用自然对数变换增强LNC与特征的线性相关性,通过LASSO回归筛选出7项关键颜色特征和6项纹理特征;最后创新性地将SMOGN(高斯噪声合成少数过采样)和ADASYNR(自适应合成采样)两种重采样策略应用于回归任务,有效平衡了数据分布。
研究结果揭示:1)颜色特征中,CIELAB空间a分量标准差与LNC呈强正相关(r=0.71),b分量均值则显示显著负相关,印证了氮胁迫下叶片黄化现象;2)对数转换使特征-LNC相关性平均提升23.6%,Breusch-Pagan检验证实其有效消除异方差性;3)在0.8相关阈值下,ADASYNR采样使训练集罕见样本比例从14%提升至34%,生成数据分布较SMOGN更平滑;4)模型比较显示,ADASYNR-SVR组合在罕见样本预测中表现突出,测试集F1-score达0.81,较基线提升58%,而ADASYNR-XGBoost在整体指标R2上最优(0.89 vs 0.85)。
讨论部分指出,该研究的突破性体现在三方面:方法学上首次将分类任务的ADASYN算法改造为ADASYNR回归采样器,通过动态权重机制重点增强"难学习"样本;技术上证实简单颜色统计量(标准差)比复杂植被指数更能敏感反映氮状态,这源于氮高效分配时新老叶片的显色差异;应用层面构建的轻量化方案仅需普通扫描仪即可实施,适合资源有限的保护区。值得注意的是,标准纹理特征虽与LNC无显著线性相关,但作为辅助变量参与建模后使MAE降低12%,暗示其可能捕获了氮代谢影响的微观结构变化。
这项研究为濒危物种保护提供了可推广的技术范式:通过计算机视觉捕获表型特征,结合智能算法破解小样本困境,最终实现"零伤害"的长期营养监测。未来若能将此框架扩展至多光谱成像,有望进一步区分光合与非光合氮组分,提升预测精度。正如作者强调,当生态保护遇上机器学习,即便是最脆弱的生命,也能获得最温柔的守护。
生物通微信公众号
知名企业招聘