《Theory in Biosciences》:Red fescue (Festuca rubra L.) variety recognition using subset division and neural networks
编辑推荐:
摘要:植物品种分类是植物育种和品种登记中的关键任务。紫羊茅(Festuca rubra L.)是一种广泛栽培的草种,包含大量亲缘相近的品种,使得其自动化分类成为具有挑战性的多类分类问题。本研究旨在开发并评估一种结合子集决策框架的多层感知器(Multilayer
摘要:植物品种分类是植物育种和品种登记中的关键任务。紫羊茅(Festuca rubra L.)是一种广泛栽培的草种,包含大量亲缘相近的品种,使得其自动化分类成为具有挑战性的多类分类问题。本研究旨在开发并评估一种结合子集决策框架的多层感知器(Multilayer Perceptron, MLP)神经网络,用于紫羊茅品种的准确分类及未见新品种的识别。研究人员分析了由7个形态学特征描述的76个品种。为解决多类问题的复杂性,将数据集划分为多个子集,并评估了不同划分策略的有效性。研究人员引入基于置信度与多数投票的决策规则(多数比majority ratio ≥ 0.9 且 Softmax 平均置信度 mean Softmax confidence ≥ 0.8),以提高最终预测的可靠性并实现开集识别(Open Set Recognition)。采用准确率(Accuracy)、精确率(Precision)、F1分数(F1 Score)和召回率(Recall)对模型进行评估。结果表明,将数据集划分为15个子集(第一个子集含6个品种,其余各子集含5个品种)为最优方案,该方法在预测性能与决策一致性之间取得最佳平衡,既能正确分类已知品种,又能稳定检测未知样本。将MLP神经网络与策略性子集划分及置信度驱动决策规则相结合,为植物品种识别中高维多类分类难题提供了稳健解决方案。模型识别新品种的能力对其实际应用至关重要,确保了算法灵活性,这在逐年培育新品种的农业和园艺领域尤为实用。
论文解读:基于子集划分与神经网络的多层感知器识别紫羊茅(Festuca rubra L.)品种
一、研究背景与意义
植物品种的分类与认定是植物育种及品种保护(如UPOV的DUS测试——Distinctness, Uniformity, and Stability)中的核心环节。紫羊茅(Festuca rubra L.)是世界上重要的冷季型草坪草之一,广泛用于园林绿化、运动场及退化土地修复。然而,由于紫羊茅包含大量亲缘关系密切、形态差异微小的栽培品种(Cultivar),传统基于形态学观察和多元统计分析的方法往往主观性强、耗时且难以应对大规模多类别区分。随着新品种不断育成,现有方法在可扩展性与自动化方面存在明显不足。此外,实际育种工作中常需判断待测样本是否为已知品种或全新品种(即开集识别,Open Set Recognition),而常规分类器通常缺乏此能力。为此,研究人员开展了将多层感知器(Multilayer Perceptron, MLP)神经网络与数据集子集划分(Subset Division)策略相结合的探索,旨在提高76个紫羊茅品种的分类精度,并使模型具备识别未见新品种的功能。该研究发表于《Theory in Biosciences》。
二、主要关键技术方法概述
研究人员采集经随机完全区组设计(Randomized Complete Block Design,6个区组)测定的76个紫羊茅品种各10株植株的7项形态学量化特征:秋季叶宽、春季自然株高、最长茎长、茎上节间长、旗叶长、旗叶宽及花序长,剔除数据缺失超30%或生长异常的品种后形成完整数据集。采用Python 3.12.2基于TensorFlow(Keras)构建Sequential结构的MLP模型,含5个全连接层(Dense Layer,分别配ReLU或Softmax激活函数)、2个批量归一化层(Batch Normalization)与3个Dropout层(防过拟合),输出层使用Softmax激活以生成多类概率分布;损失函数为分类交叉熵(Categorical Cross-Entropy),优化器为Adam,训练100轮(Epoch)、批大小40,并对少样本类施加类别权重(Class Weighting)缓解不平衡。为降低76类直接分类难度,将全集按不同粒度划分子集(如15子集:首子集6品种+其余各5品种),各子集独立训练MLP。测试时对每个样本取10次观测,综合各子集预测的多数比(majority ratio≥0.9)与平均Softmax置信度(mean confidence≥0.8)判断是否归为某已知品种,否则判为未知/新品种(开集识别)。另设随机森林(Random Forest, RF,100棵树,最大深度10,√特征数分裂)作对照,并沿用相同置信度-多数比阈值聚合规则。性能指标为准确率(Accuracy)、精确率(Precision)、召回率(Recall)及F1分数,训练/测试按分层20%切分(random_state=42),标签做独热编码(One-Hot Encoding)。
三、研究结果
Results(结果)
研究人员首先对整个76类未划分子集(DATA)及各划分方案(DATA a~DATA f,分别含不同数量子集与每子集品种数)训练MLP并评估。未划分子集及部分粗粒度划分(DATA a、DATA b、DATA c)评估指标偏低,表明直接多类分类困难。最优方案DATA d(15子集:首子集6品种,其余14子集各5品种)取得相对最高均值指标(准确率58.21%、F1值0.577、精确率0.588、召回率0.582),且该配置下模型能将已知选定品种(品种31)正确归类,并将未知品种(品种8094)稳定判定为新颖品种——这是其他划分所不具备或表现不稳定的。细粒度划分DATA f(每子集仅2品种)虽单项指标虚高,却出现系统性误判(将已知品种排除并大量误归为品种31),说明过少类/少特征致模型无法学到细微差异而产生偏差。混淆矩阵显示某些品种对(如品种83与114、品种4与2)在多配置中持续混淆,反映其在给定7维形态空间中存在固有重叠。补充随机森林对照在整体指标上与MLP接近,但子集级预测分散度高,在DATA d中未能通过阈值准则正确锁定已知品种,表明MLP在该子集决策框架下具更好的一致性。
四、讨论与结论翻译
讨论部分指出,相比已有作物(玉米、马铃薯、大麦等)品种识别研究通常仅涉及≤11个品种且使用更多图像或光谱特征,本研究用仅7个形态特征区分76个近缘紫羊茅品种属更具挑战任务。DATA d优效性源于每子集含5~6品种提供了适中类间多样性与判别信息,过少则特征空间欠丰富致泛化差,过多则类边界模糊降精度。引入置信度与多数比双重阈值实质实现了选择性分类(Abstaining/Reject Option),契合开集识别理念,使算法可甄别未知品种——这对农业园艺中持续涌现的新品种具重要实用价值。虽然MLP整体精度不及某些深度学习物种分类报道,但在本高难度多类微距形态问题上已能捕获有效判别模式,且MLP在子集间预测一致性优于随机森林,说明子集划分框架下的适用性不仅取决于经典指标,也取决于预测稳定性与决策规则兼容性。未来可拓展至其他植物多类问题、优化子集划分策略及增加交叉验证稳健性评估。
研究结论(译自原文Conclusion要点):
将多层感知器(MLP)神经网络与数据集子集划分策略及基于置信度(均值Softmax置信度≥0.8)和多数比(majority ratio≥0.9)的决策规则相结合,可有效解决紫羊茅76个近缘品种的高维多类分类问题,并能实现开集识别以检测未见新品种。对本研究数据,划分为15个子集(首子集6品种,其余各5品种)为最优配置,在保持已知品种正确分类的同时稳定识别未知样本。该子集划分框架为植物品种DUS测试及一般多类细粒度分类问题提供了可扩展且鲁棒的解决思路,模型识别新类别的能力确保其适应农业与园艺中新品种不断育成的现实需求。