基于图像的大豆种脐颜色高通量表型分析

《The Plant Phenome Journal》:High-throughput image-based phenotyping of soybean hilum color

【字体: 时间:2026年06月09日 来源:The Plant Phenome Journal CS5

编辑推荐:

  大豆(*Glycine max* [L.] Merr.)种脐颜色是影响市场分类和种子品质性状的重要形态学特征,然而其表型分析大多具有主观性,依赖视觉检查并归入八个颜色类别之一。本研究开发了一种基于图像的高通量流程,以更客观、高效地测量和分类种脐颜色。研究人员使

  
大豆(*Glycine max* [L.] Merr.)种脐颜色是影响市场分类和种子品质性状的重要形态学特征,然而其表型分析大多具有主观性,依赖视觉检查并归入八个颜色类别之一。本研究开发了一种基于图像的高通量流程,以更客观、高效地测量和分类种脐颜色。研究人员使用标准化成像系统,在受控光照条件下采集了来自606个基因型、涵盖全部八种种脐颜色类别的5249粒大豆种子图像。训练了两个Mask R-CNN分割模型用于检测种子并分割每粒种子上的种脐区域,在种子检测上实现了平均精度(mAP@[0.5:0.95])0.84,在种脐分割上为0.53。经典机器学习模型基于手工设计的颜色矩特征(捕捉多个色彩空间中的亮度和色度变化)进行训练,并与使用迁移学习在标准化红绿蓝(RGB)种脐掩膜图像上微调的卷积神经网络(AlexNet和ResNet18)进行比较。梯度提升分类器在机器学习方法中达到最高准确率91.7%,而微调的AlexNet模型达到94.2%,略优于ResNet18(93.1%)。误分类主要发生在视觉相似的棕色种脐类别之间,反映了种脐色素沉着的连续性而非离散性。本研究建立了一个自动化的基于图像框架,用于客观、可重复的种脐颜色评估,为育种、基因库管理和遗传研究中的标准化、数据驱动的种脐颜色表型分析提供支持。
**论文解读文章**

**研究背景**
大豆(*Glycine max* [L.] Merr.)是全球种植最广泛的豆类作物,其种皮和种脐颜色是重要的形态学性状,影响市场分类和种子品质。种脐颜色在野生大豆中为均一黑色,经驯化和人工选择后,栽培品种呈现从黄到黑的广泛色谱。在现代优良品种中,种皮多为黄色,而种脐保留色素变异。传统种脐颜色评估依赖视觉检查,对照八类标准参考(黑色、不完全黑色、深棕色、棕色、浅棕色、灰色、不完全黄色和黄色),该方式主观性强,评估者间一致性差。此外,离散分类系统难以完全捕捉由生化与遗传差异驱动的色素强度连续变化。种脐颜色反映类黄酮和花青素生物合成基因的差异表达,暗色种脐通常含有更高水平的类黄酮和异黄酮,但其作为定量生化标记的潜力因手动评分粗糙的主观性而未被充分利用。

**现有问题与研究目的**
目前缺乏针对种脐颜色进行高通量、客观量化的图像表型框架。现有研究多聚焦于整体种皮色素沉积或灰度强度,而非种脐特异性分析。Barion等(2016)虽证明种脐灰度强度可替代种子生化组成,但尚无综合框架能跨定性类别量化种脐颜色全谱。本研究旨在开发一个基于图像的高通量流程,用于量化并分类大豆种脐颜色,整合深度学习(DL)自动分割、多色彩空间颜色矩特征提取,以及经典机器学习(ML)与DL模型比较,从而搭建从传统视觉评估到精准表型组学的桥梁,为育种、基因库和遗传研究提供客观、可重复的表型数据。该论文发表在《The Plant Phenome Journal》。

**主要关键技术方法**
研究人员使用标准化成像系统(16×16英寸LED柔光箱,5500K色温,Canon EOS Rebel T7 DSLR相机,35mm焦距,ISO 100,f/8,1/125秒,日光白平衡)采集大豆种子图像。样本队列来源包括两个数据集:2636粒种子来自SoyMAGIC群体(599个基因型,多亲本高级世代互交群体),2613粒种子来自11个参考品种和育种品系(每个种脐颜色类别315粒种子)。关键技术方法包括:(1)两阶段Mask R-CNN分割模型(ResNet-50骨干网络,预训练于COCO数据集)分别用于种子检测和种脐区域分割;(2)从种脐掩膜图像中提取50个颜色矩特征(均值、标准差、偏度、熵、上截尾均值),覆盖灰度、RGB、HSV和CIE L*a*b*四种色彩空间;(3)递归特征消除(RFE)选择前10个特征,经Spearman相关性过滤后保留4个非冗余特征(V通道上截尾均值、B通道偏度、a*通道均值、b*通道上截尾均值);(4)经典ML模型(逻辑回归、随机森林、支持向量机[RBF核]、梯度提升)基于所选特征训练,DL模型(AlexNet和ResNet18)通过迁移学习在标准化种脐RGB图像上微调。

**研究结果**

**3.1 分割模型性能**
Mask R-CNN模型在种子检测上表现优异:召回率50=95.24%,AP50=95.24%,mAP@[0.50:0.95]=83.60%。种脐分割模型在1864粒单种子图像上训练,AP50=95.81%,AP65=87.11%,AP75=53.57%,mAP@[0.50:0.95]=52.01%。在高IoU阈值下精度下降属预期现象,因为种脐区域小、位置多变且与种皮对比度各异。该结果表明分割模型能可靠地分离种脐区域,为后续特征提取奠定基础。

**3.2 颜色矩特征提取与特征选择**
从50个颜色矩特征中,RFE与随机森林识别出最具判别力的前10个特征。经相关性过滤后保留4个特征:V通道上截尾均值(反映亮度)、B通道偏度(捕获暗色种脐的对比度不均匀性)、a*通道均值(红-绿色度)和b*通道上截尾均值(黄-蓝色度)。箱线图分析显示:V通道上截尾均值从黄色到黑色类别线性下降,对应色素积累导致的亮度降低;b*通道上截尾均值同样线性降低,反映黄色成分减少;a*通道均值在棕色类别中最高,显示中间色类更强的红色成分;B通道偏度在暗色种脐中为正偏,在浅色种脐中为负偏,这与暗色种脐上白色的种脐裂(faboid split)区域形成高对比度有关。这些连续梯度表明种脐颜色变异本质上是连续的,八类定性系统仅为色素强度梯度上的分区。

**3.3 分类模型性能**
经典ML模型中,梯度提升在独立测试集上获得最高准确率91.7%,随机森林(91.6%)和SVM(90.6%)次之,逻辑回归(90.4%)略低,说明非线性集成方法更擅长捕捉细微色度变化。DL模型AlexNet(94.2%)和ResNet18(93.1%)均优于所有ML方法。混淆矩阵显示,误分类主要发生在棕色类别之间(深棕色与棕色),反映其色度和亮度的重叠特性。例如,梯度提升模型中棕色类别的召回率为0.77,深棕色为0.82,约11%棕色样本被误判为深棕色,9%深棕色被误判为棕色。AlexNet模型对棕色和深棕色的分离稍好(召回率分别为0.88和0.87),但增加了不完全黄色与浅棕色/黄色之间的误分类。整体上,DL模型通过捕获空间纹理信息提供了边际性能提升。

**总结讨论**
研究表明,一组少量可解释的颜色矩特征即可有效捕获种脐色素沉积的连续梯度,使定性类别与潜在生物学变异一致。梯度提升和随机森林模型的准确率超过91%,而DL模型仅提升2%–3%,说明颜色矩特征已包含大部分判别信息,空间特征(种脐大小、形状)提供额外增益。所有模型误分类主要发生在相邻类别,反映色素沉积的连续性。种脐颜色连续梯度受I座(抑制剂位点)控制,该位点通过反向重复序列触发RNAi沉默查尔酮合酶(CHS)基因;黄色种脐源于CHS完全沉默,而部分抑制或R、T、W1位点的下游修饰导致棕色和黑色色素积累。本研究准确的颜色分析依赖于精确的种脐分割,Mask R-CNN实现了高精度,但依赖均匀光照条件,未来需加入颜色校准靶标和跨设备验证。当前瓶颈在于需手动将种子调整为种脐朝上放置,可训练随机方向分割模型并集成自动化成像硬件(如传送带系统)以提升通量。本框架不仅支持育种与种子生产的品种验证和纯度控制,其连续定量描述符还可用于数量性状位点(QTL)定位和基因组选择等精细遗传分析,尤其有助于解析色素生物合成与稳定性对环境条件的响应。

**研究结论**
本研究表明,一组少量可解释的颜色矩特征可有效捕捉大豆种脐色素沉积的连续梯度,使分类类别与潜在生物学变异对齐。通过将这些低维颜色矩特征与ML和DL分类模型整合,研究人员建立了一个可扩展、客观且具有生物学基础的种子颜色表型分析框架。该方法不仅支持法规合规性和高通量品种验证,还能实现色素生物合成与稳定性的定量遗传分析。最终,该流程弥合了传统视觉评估与精准表型组学之间的差距,为大豆及其他作物中视觉性状与其遗传、生化和环境决定因素的关联铺平了道路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号