
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于半合成数据与主动学习的油菜角果表型分析系统DeepCanola开发及其在芸薹属作物育种中的应用
【字体: 大 中 小 】 时间:2025年06月12日 来源:Computers and Electronics in Agriculture 7.7
编辑推荐:
为解决传统表型分析耗时费力的问题,英国研究团队开发了结合半合成数据生成与主动学习的DeepCanola系统,通过Mask R-CNN模型实现油菜角果瓣膜(valve)的实例分割与精准测量,在有序和无序场景下均达到R2 0.95的测量精度,显著提升育种效率并拓展至十字花科相关物种表型分析。
在作物育种和植物生物学研究中,精确测量角果表型特征(如长度、面积)对评估产量潜力至关重要。传统人工测量方法效率低下,而基于计算机视觉的自动化系统又面临训练数据获取成本高、复杂场景适应性差等挑战。尤其对于芸薹属作物如油菜(Brassica napus),其角果由种子承载区(valve)和非种子区(beak)组成,传统方法难以精准区分这两个区域,导致表型数据偏差。
英国约翰英纳斯中心等机构的研究团队在《Computers and Electronics in Agriculture》发表研究,开发了名为DeepCanola的智能表型分析系统。该系统创新性地结合半合成数据生成与主动学习策略,仅需39人工小时标注原始数据即可生成44,823条训练样本,训练出的Mask R-CNN模型在有序角果图像中实现R2
=0.993的瓣膜长度测量精度,并能适应30-60个角果重叠的复杂场景。更引人注目的是,该模型可推广至拟南芥(Arabidopsis thaliana)、野萝卜(Raphanus raphanistrum)等近缘物种,为十字花科作物高通量表型分析提供了通用工具。
关键技术包括:1)基于真实标注角果的半合成数据生成系统,通过随机旋转、缩放和背景融合创建训练样本;2)四轮主动学习迭代,逐步加入极端形态样本和噪声增强;3)Mask R-CNN架构结合骨架化算法提取瓣膜中轴线长度;4)采用BR9(有序/无序角果)和BR17(含人工测量数据)等多源数据集验证。
研究结果显示:在有序样本验证集BR17中,模型测量的瓣膜长度与人工数据高度吻合(R2
=0.993),准确捕捉到5°C与10°C春化处理导致的瓣膜长度差异(p值一致性达95.7%)。对于无序样本,虽然密集平行排列角果会出现约4%的检测误差,但垂直重叠场景仍能保持良好分割效果。通过D'Arcy Thompson启发的几何形变增强,模型成功识别野萝卜等近缘物种瓣膜结构,t-SNE可视化显示半合成数据与真实无序样本特征高度重叠。
讨论指出,当前系统在超高密度样本(>60个角果/图像)和野外复杂背景下的性能仍有提升空间。未来可通过Soft-NMS算法改进重叠对象检测,或引入Transformer架构增强遮挡处理能力。该研究的核心价值在于:1)建立首个专注于芸薹属角果瓣膜分析的深度学习模型;2)验证半合成数据在植物表型分析的可行性,相比全人工标注效率提升1000倍;3)为产量相关性状(瓣膜长度与种子数呈指数相关)的高通量解析提供新范式。这项工作不仅加速了油菜育种进程,其技术框架也可迁移至其他作物器官的表型分析,为智慧农业发展提供重要方法学参考。
生物通微信公众号
知名企业招聘